Les données publiques ouvertes (open data) peinent à rencontrer les usages journalistiques, alors que le développement de ce phénomène avait nourri de nombreux espoirs pour entreprendre des projets reposant sur une approche par données. Jonathan Stoneman (2015) identifie deux raisons principales pour expliquer cet état de fait : 1) les autorités publiques n’ont pas pensé aux journalistes en tant qu’utilisateurs finaux ; 2) lorsque des données sont publiées sur un portail open data, elles sont souvent obsolètes, incomplètes ou à valeur limitée. L’open data manque de pertinence pour les journalistes, conclut Stoneman, d’autant que les données publiques ouvertes sont généralement contournées dans les projets de datajournalisme. D’autres voies sont en effet possible pour se procurer des jeux données : soit via des démarches relevant des législations en matière de droit à l’information ; soit via la collecte de données « classique » auprès de différentes sources. Par ailleurs, observe le chercheur, le mot « données » reste encore trop souvent synonyme de « statistiques » pour beaucoup de journalistes.
Si dans le monde anglo-saxon, l’approche par données dans le journalisme compte une longue histoire jalonnée de nombreux prix Pulitzer, les rédactions européennes s’y sont mises plus tardivement. Aujourd’hui, les considérations d’ordre techniques ne sont potentiellement plus un obstacle : en ligne, de nombreux sites proposent des outils de mise en forme et de visualisation de données. Reste qu’une approche par données nécessite parfois un long temps d’enquête, ce temps qui manque souvent : comme le rappelait Steve Doig, le journalisme de données, c’est de l’enquête, pas du code. Le datajournalisme, estime Simon Rodgers, c’est juste du journalisme qui se pratique « en utilisant des données pour raconter des histoires de la meilleure façon possible, en combinant les meilleures techniques du journalisme, y compris des visualisations, des explications concises et les technologies plus récentes. Il (le datajournalisme) devrait être ouvert, accessible et instructif. »
« Waiting for datajournalism »
En Belgique francophone, les projets de datajournalisme sont encore peu nombreux : ce que constataient plusieurs chercheurs de l’ULB (De Maeyer, Libert, Domingo, Heinderyck et Le Cam) dans « Waiting for datajournalism » (2015). Dans le petit marché belge francophone, où évolue seulement une poignée de journalistes passionnés par les données, plusieurs obstacles freinent encore le développement du datajournalisme. Ces obstacles relèvent d’un manque de moyens (temps et budgets), de la mobilisation d’un éventail de compétences pas toujours accessibles ou disponibles (informatique, statistique, graphisme), de sensibilités individuelles plutôt littéraires, ou de difficultés d’accès aux données. Les chercheurs ont également relevé une divergence dans les interprétations ou pratiques : certains journalistes interrogés dans le cadre de cette recherche estimaient que produire une datavisualisation, c’est du datajournalisme ; d’autres se plaçaient à un niveau de pratique ne dépassant pas le stade discursif.
Cet article soulignait aussi que le développement du journalisme de données connaît des réalités différentes selon les pays et contextes. En France, par exemple, les expériences journalistiques en matière d’approche par données n’y empruntent pas nécessairement les sentiers les plus attendus en matière de storytelling, que ce soit sur le plan de la génération automatique de textes que sur celui de la « gamification », ou encore sur celui d’explorations visuelles en équilibre entre information et esthétique. Mais quelle que soit la voie empruntée, la question de la qualité des données reste cruciale : sans données de qualité, pas d’information de qualité.
Une adéquation aux usages
Les problèmes de qualité sont susceptibles d’être rencontrés dans n’importe quel jeu de données provenant de n’importe quelle organisation, publique ou privée. Dans tous les cas, il convient de rester sceptique : les données peuvent contenir des vérités mais aussi des biais, rappelle Alexander B. Howard (2014) dans un rapport du Tow Center for Digital Journalism consacré au journalisme de données.
Dès lors qu’un jeu de données est utilisé dans un contexte journalistique, il doit répondre à une série d’exigences liées à cet usage précis. C’est là l’application de la définition de la norme ISO 9000, relative au management de la qualité, qui dispose que la qualité est une question d’adéquation aux usages. Comment définir la qualité d’une donnée dans un contexte journalistique ? Suivant les recommandations de la littérature relative à la data quality et en y associant les variables de ce qui constitue une actualité, des indicateurs généraux de qualité pourraient être définis comme suit :
- Le producteur des données en est-il la source authentique ?
- Les données sont-elles exactes, complètes et à jour ?
- Les données sont-elles documentées par des métadonnées ?
- Les données sont-elles compréhensibles, font-elles sens ?
- Les données sont-elles fournies dans un format libre et exploitable ?
- Les données sont-elles pertinentes, quelle est leur valeur ajoutée ?
A l’examen, les jeux de données peuvent en outre présenter des erreurs formelles : mauvais formatage, lignes dupliquées, intitulés ambigus, fautes d’orthographe… Bref, ils sont utilisables mais nécessitent d’être nettoyés ou reformatés. Cela suppose de passer à un niveau plus technique, en utilisant un data quality tool comme Open Refine. Quartz a également publié un guide (en anglais) bien documenté pour en finir avec les mauvaises données.
Références
STONEMAN, Jonathan. Does Open Data Need Journalism?. Reuters Institute for the Study of Journalism, 2015.
DE MAEYER, Juliette, LIBERT, Manon, DOMINGO, David, et al. Waiting for Data Journalism: A qualitative assessment of the anecdotal take-up of data journalism in French-speaking Belgium. Digital Journalism, 2015, vol. 3, no 3, p. 432-446.
BOYDENS, Isabelle et VAN HOOLAND, Seth. Hermeneutics applied to the quality of empirical databases. Journal of documentation, 2011, vol. 67, no 2, p. 279-289.
FOX, Christopher, LEVITIN, Anany, et REDMAN, Thomas. The notion of data and its quality dimensions. Information processing & management, 1994, vol. 30, no 1, p. 9-19.
MADNICK, Stuart et ZHU, Hongwei. Improving data quality through effective use of data semantics. Data & Knowledge Engineering, 2006, vol. 59, no 2, p. 460-475.
Ruben Verborgh et Max De Wilde, Using Open Refine, Packt Publishing Ltd, 2013, 114pp.