Datajournalisme, Rue89

SEMAINE 1 :

Un métier d’avenir : les bases, les opportuniés

Aux origines

  • A l’origine : enquête Pro Publica, 2009, en coopération avec Los Angeles Times. Remarque qu’infirmier fautif peut ensuite travailler dans n’importe quel autre hôpital => d’où base de données

  • Puis Wikileaks, 2010. Gouvernements prennent conscience du potentiel des données

  • Data Journalism Awards : 180 prix en 2012 à 520 en 2014

  • « Journalisme assisté par ordinateur » = usage ordinateurs pour enquêtes journalistiques. Philip Meyer, 1968, sondage sur émeutes raciales à Détroit => met en avant leurs vraies causes, contraires à la rumeur locale

  • Datajournalisme naît avec :

    • émergence de geek-journalistes (autrefois, profils d’étudiants en sciences humaines surtout…)

    • abondance de données numérisées

    • développement de la micro-informatique

    • nouveaux modèles de publication / numérisation information

  • Définition : création d’un récit à partir de données numériques intraitables sans ordinateur

La méthode du journalisme de données

  • Données ont peu de valeur en elles-mêmes : doivent ensuite être filtrées, visualisées et racontées

  • Les Décodeurs (Le Monde)

  • Méthode : Poser une question ou une hypothèse > faire davantage que décrire les données > choisir la dimension à mesure > répondre à la question de départ > communiquer le résultat > article classique ou visualisation des données

  • Global Terrorism Database

  • Analyser données par opposition aux anecdotes (micro-trottoir)

Organiser les données et structurer une enquête

  • Exemple : incendie, manifestation, fait divers, … Le meilleur moyen de le rapporter est d’écrire un article. Heure, date, lieu, adresse (précise avec GPS), …, donc éléments pris en compte par ordinateur / agrégation (voir Los Angeles Times)

  • Ordinateur peut être connecté à objet, par exemple à des capteurs sismiques => écriture automatique de l’info (A…, un séisme de magnitude… à frappé…)

  • Permet aux journalistes de ne pas mener des taches répétitives => temps pour autres choses

  • Outils : DocumentCloub (par New York Times), Panda (journalistes y versent leurs données pour les mettre à disposition des collègues), Google Spreadsheet

  • Guide du datajournalisme : http://jplusplus.github.io/guide-du-datajournalisme/

Trouver les données : où, quand, comment ?

  • INSEE : le plus représentatif en France. Mais logistique coûteuse (recensement…) !

  • Cartocrime : statistiques sur insécurité dépendant du ministère de l’Intérieur

  • Agrégateurs de données : surtout sur portails d’agences comme Eurostat, Banque mondiale, … Entrer nom de l’organisme en anglais + « data »

  • Réseaux sociaux + Google : collectent des données par algoritmes

Comment détecter des données fausses ?

  • Données pas forcément objectives, car il s’agit aussi d’une création humaine (sélectivité…).
    • Ex chiffres du chômage : quelle définition du chômeur ? En France = inscrits à Pôle Emploi
    • Ex chiffres de la criminalité : en 2006, la police a cherché à favoriser le taux d’affaires élucidées ; priorité donc aux affaires facilement résolues
  • Ex, chiffre de l’inflation : inclut de nombreux secteurs (industrie, tertiaire…). Mais pouvoir d’achat difficile à mesure car les produits changent d’une année à l’autre. Improbable de comparer vieux Nokia avec iPhone !
  • Indice Big Mac : coût du produit reste le même dans le monde, seul le coût de main d’oeuvre change

Lexique

  • Datajournalisme : Création d’un récit à partir d’éléments numériques (chiffres ou autres) que l’on ne pourrait pas traiter sans ordinateur.
  • Données structurées : Information qui peut être utilisée par un ordinateur : agrégée, analysée et republiée pour trouver des tendances ou identifier les points les plus intéressants par rapport à l’ensemble.
  • Hypothèse : Une question de recherche qui sera validée ou infirmée en analysant des données structurées.
  • Intelligence en sources ouvertes : Technique qui consiste à structurer des informations non-structurées pour effectuer des analyses ou trouver des angles.
  • Opendata (données ouvertes) : Données mises à disposition du public dans un format ouvert et sous une licence permettant à quiconque de les réutiliser.
  • Graphique : Une visualisation de données.

SEMAINE 2 :

De l’analyse à la visualisation : les concepts pour devenir datajournaliste

Comment conceptualiser les données ?

  • Unités arbitraires : elles n’ont de sens que comparées
  • Spending Stories : taper un montant => connaître à quoi cela correspond (par pays notamment)
  • The Billion Dollar Gram
  • Jour de libération fiscale : en France, courant juillet => salaires perçus avant vont à l’État !
  • Avant 1962, Algérie = 3 départements français ; leurs PIB sont inclus dans le PIB national. Après 1962, il a donc fallu bouleverser les échelles. Idem avec Allemagne (RFA / RDA)
  • Crise de 1929 : niveau d’avant récession rétabli quatre ans plus tard « seulement »

Comment analyser un jeu de données

  • 0 = homme ; 1 = femme ; 9 = inconnu
  • Quartet d’Anscombe
  • Agrégation = dite aussi « tableau croisé dynamique »

Les visualisations simples

  • Raconter une histoire (récit) avec les données : angler un graphique lui donne une vie propre (ne pas forcément mettre « évolution de… »)
  • Less is more : être minimaliste
  • Datawrapper / Infogram / Highcharts : entrer données => ça crée un graphique
  • Attention aux couleurs : éviter le vert et le rouge pour les daltoniens. Le journal en ligne Le Temps propose plusieurs versions

Les visualisations complexes

  • Diagramme de convergence en étoile :
  • Graphique en vapeur :
  • Gedviz :

Cartographie et géocodage

  • Sur carte : latitude et longitude, correspondent en quelques sortes aux abscisses et ordonnées
  • Projection de Mercator vs. Robinson
  • « Batch Geocoding » : entrer ville => indique latitude et longitude
  • QGIS
  • Google Fusion Table : importer données => les visualiser sur une carte
  • Carte ODB : gratuit pour fonctions de base ; personnalisation possible : on peut utiliser une autre géographie que Google Maps
  • John Snow (milieu XIXe siècle) : premier utilisateur de cartographie pour indiquer points d’eau dans une ville où sévit le choléra

Lexique

Unités arbitraires : Unité, utilisée très souvent dans un graphe, pour donner seulement la proportion des valeurs, sans aucune importance sur la quantité correspondante à l’unité (source: Wiktionnary).

Carte choroplèthe : Une carte choroplèthe est une carte thématique où les régions sont colorées ou remplies d’un motif qui montre une mesure statistique, tels la densité de population ou le revenu par habitant (source: Wikipédia).

Projection mercator : La projection mercator est la projection par défaut dans la plupart des logiciels de cartographie. Elle déforme très largement les échelles près des pôles.

Système d’information géographique (SIG ou GIS) : Un système d’information géographique est un logiciel permettant de traiter des informations géographiques avec une latitude et une longitude.

CSV : CSV signifie Comma Separated Values (valeurs séparées par des virgules). C’est un format ouvert pour stocker des données dans un tableau.

Le tableau suivant :

Personne Genre Taille Poids Âge
Amin masculin 160 72 44

Peut se stocker au format CSV de la manière suivante :

Personne,Genre,Taille,Poids,Âge

Amin,masculin,160,72,44

Stock : En statistique, un stock est une valeur à un instant t, par opposition à un flux. Cela peut désigner une quantité de marchandise dans un entrepôt ou un patrimoine, par exemple.

Flux : Un flux est une valeur récurrente, par opposition à un stock. Un flux peut être un salaire, une mesure de produit intérieur brut ou un loyer, par exemple.

Tax Freedom Day : Le “jour de libération” fiscale est le premier jour de l’année à partir duquel les contribuables d’un pays ont accumulé suffisamment d’argent pour pouvoir payer les prélèvements obligatoires dont ils sont débiteurs. C’est une illustration simplifiée du taux moyen d’imposition (source: Wikipédia).

Distribution : Une distribution statistique montre comment les points de données sont répartis. On la visualise avec un histogramme.

Variance : La variance est un concept de statistique qui indique dans quelle mesure les valeurs sont dispersées autour de la moyenne. Les séries de données 1 et 2 ci-dessous ont la même moyenne, mais la variance est bien plus élevée dans la série 1.

 

Types de graphiques

Dictionnaire (jeu de données) : Le dictionnaire d’un jeu de données est un fichier ou une feuille séparée qui contient la signification précise des en-têtes du jeu de données.

Graphique en lignes : Un graphique en ligne représente une série de données par des points sur un plan à deux dimensions reliés entre eux par des droites. La dimension représentée sur l’axe des ordonnées (X) est souvent une dimension temporelle.

Graphique circulaire : Un graphique circulaire représente une série de données dans un cercle divisé en plusieurs parts dont la taille est proportionnelle à la valeur représentée. On appelle souvent ce graphique un camembert.

Graphique en barre : Un graphique en barre représente une série de données par une suite de barres verticales ou horizontales dont la taille est proportionnelle à la valeur représentée.

Histogramme : Un histogramme est un graphique en barres (le plus souvent verticales) représentant une distribution. La pyramide des âges est une exception: cette distribution de la population par classe d’âge est représentée par des barres horizontales.

SEMAINE 3 :

Datajournalisme et salles de rédaction

Les secrets des projets de datajournalisme

  • The Texas Tribune : création du site en 2009. Fournit par exemple salaire des fonctionnaires
  • Le Journal de Montréal : carte des présumés sexuels (risque : vrais condamnés mélangés aux présumés!)
  • Zeit Online : tableau sur travail dans tous les Länders allemands
  • Le Monde : « jeu », composer soi-même sa carte des régions suite à la réforme territoriale. Interactif : montrer les projets antérieurs selon partis, années, …
  • The Guantalamo Docket : sur population carcérale
  • Homicide Watch D.C : recense tous homicides dans la ville (lieu, heure, …) => nécessité du long terme ; la criminalité change au fil des années et décennies
  • The Upshot (NYTimes) : recommande s’il vaut mieux louer ou acheter un appartement
  • Génération Quoi (France Télévisions) : données accessibles via questions

Travailler en équipe et avec un chef de projet

  • Journaliste devient chef de projet si plusieurs compétences nécessaires : journalisme traditionnel ou papier / datajournalisme / numérique, …
  • Trello : logiciel en ligne ; projet commun mis sur une même plateforme
  • GitHub : fournisseurs y publient leurs codes et informent des bugs ; toute modifications enregistrées comme sur Google Drive
  • Emoto : mesure émotions des tweets lors des jeux olympiques de … ?
  • ICIJ : plate-forme de journalisme d’investigation aux USA

Pourquoi et comment utiliser les statistiques

  • Variables de substitution (proxy)
  • Pour étudier violences sexuelles, par exemple, mauvaise fiabilité du nombre de plaintes déposées car beaucoup de victimes ne portent pas plainte
  • = Average : dans tableau pour calculer moyenne
  • Distribution : on prend valeur minimale et valeur maximale et on divise en quantils de tailles égales
  • Sondages : sur échantillon  »représentatif ». Un échantillon de 400 personnes suffit et est aussi fiable qu’un échantillon de 1.000 personnes. Impossible d’interroger au hasard : tout le monde n’a pas téléphone ou internet ; si porte-à-porte, certains sont au travail, en voyage, etc.

Les mots pour travailler avec le développeur

Du choix des sources à l’analyse du réseau

  • Detective.io : logiciel pour décortiquer et surtout structurer une information publiée par un média
  • => prise en compte de données non publiées dans les statistiques publiques
  • Journalistes londoniens concluent, en juin 2014, que le Qatar a corruption plusieurs membres de la FIFA afin d’organiser la Coupe du monde 2022. Suite enquête de millions de documents « tagués »
    • => analyse de réseau
  • Offshore Leaks
  • Gephi : visualiser graphes de grandes tailles sur plusieurs modes

SEMAINE 4 : Les dernières tendances du datajournalisme

Pensez crowdsourcing

  • Crowd = foule
  • sourcing = externalisation
  • 1er exemple par Guardian en 2009. Une journaliste a obtenu un disque dur où figurent les dépenses des parlementaires => quelques jours plus tard, le Parlement publie lui-même les notes de frais
    • => internautes anonymes (mais malgré tout experts) lisent les notes de frais et signalent les anomalies
  • 24 000 mails de Sarah Pallin publiés en 2009 en Alaska (par Washington Post, …)
  • National Geographic : propose de cartographier ; plutôt que de laisser les utilisateurs à eux-mêmes, le magazine leur enseigne les bases
  • Crowdsourcing en temps réel, pour actu brûlante : lors du tremblement de terre à Haiti, SMS envoyés vers un numéro spécial sont traduits et diffusés en live, ce qui a par ailleurs permis une meilleure mobilisation des secours
    • => micro-trottoir à grande échelle. Mais données pas représentatives : dépend de l’équipement des individus, …

Journalisme d’investigation et accès aux données publiques

  • Si données inaccessibles en ligne, saisir article 15 de la Constitution
  • FOIA : Freedom of Information Act (aux USA)
  • Loi CADA : n’importe quel Français peut demander des informations aux autorités publiques
  • Open data / données ouvertes : gratuites
  • Administration méconnaît elle-même les lois !
  • Manque de moyens de la CADA : elle dit parfois que l’info est indisponible, alors qu’elle l’est

Le guide pratique du scraping

  • Aspiration de données par ordinateur pour les mettre sur une base
  • Pour lire données, passer du format HTML ou PDF au format tableur
  • Outils : plug-ins sur navigateurs comme Import.IO, OutWIt ou Kimono Log

Comment éviter la data-manipulation

  • Comparer des résultats avec des études concurrentes
  • Quand on parle de test, toujours trouver le taux de base
  • Cerner la différence entre corrélation et causalité

L’avenir : big data et entreprise mediadata

  • On produit en deux jours autant de données que l’Humanité jusqu’en 2003 => notamment raison de coût
  • Un concept de méthodologie : au lieu de faire une hypothèse et de la tester, on laisse les ordinateurs trouver les algorithmes qui régissent les données pour prédire le futur

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *