Qualité des données et journalisme automatisé : prévenir plutôt que guérir

Des problèmes de qualité des données peuvent être rencontrés dans n’importe quel ensemble de données de toute organisation, publique ou privée. Au mieux, ils sont connus, au mieux, ils peuvent être traités.

Lorsqu’un système informatique commet une erreur, il ne la reproduira pas deux fois dès lors que celle-ci sera détectée, soulignait Helen Vogt, de l’agence de presse norvégienne NTB, en 2016 lors du Gen Summit de Vienne lors d’une conférence au titre provocateur : « Votre prochaine recrue pourrait être un robot ». En matière d’automatisation de production automatisée de contenus journalistiques, les raisons de la faille seraient donc moins à trouver du côté des machines qui génèrent les contenus en sortie que de celui des données qui les nourrissent en entrée.

Historiquement, on rencontre peu d’exemples de ratés concernant des systèmes automatisant la production d’informations journalistiques. Dans tous les cas, les origines de ceux-ci étaient à trouver dans la qualité des données. Une base de données informatique n’est jamais que le reflet d’une réalité capturée à un moment donné : la nature évolutive des valeurs des données dans le temps a notamment été soulignée dans les travaux d’Isabelle Boydens, qui propose d’envisager le concept de qualité des données au regard de la norme ISO 9000, selon laquelle la qualité consiste à rencontrer les usages (« fitness for use »).

Dans « Bad data handbook: mapping the world of data problem », Q. Ethan McCallum soulignait l’impact que peuvent avoir des informations s’appuyant sur une mauvaise qualité de données. L’exemple cité est celui de données anciennes qui, non datées, avaient été remises à la date du jour par Google News. Celles-ci portaient sur la banqueroute d’une valeur cotée sur le marché. Des mouvements de vente massifs ont été observés dans la foulée de la diffusion de cette information. Lorsque celle-ci a été corrigée, le mal était déjà fait.

Dans le domaine financier, la confiance est un élément-clé. L’impact sur ce « réel observable » a également été constaté lorsqu’une dépêche générée de manière automatique par le logiciel Wordsmith pour l’Associated Press affirmait que Netflix n’avait pas rencontré les attentes du marché. L’erreur provenait de deux données, d’une valeur respective de « 7 » et « 1 », qui avait été fusionnées et ensuite été interprétées par le système comme une chute de 71% du cours de l’action.

Un autre des rares exemples est celui de l’annonce, le 22 juin 2017, d’un séisme de magnitude 6,8 à Los Angeles par Quakebot, un système automatisant les données de l’Institut géologique américain pour le Los Angeles Times. Un mouvement de panique a été observé sur les réseaux sociaux alors que ce séisme s’était bien produit… mais en 1925. Il s’agissait d’un bug de type « Unix epoch time« , qui avait conduit le logiciel à réinterpréter la date.

« Garbage in, garbage out » : lorsqu’un récit journalistique, qu’il soit automatisé (ou non) est nourri par des données de mauvaise qualité, il ne pourra pas rencontrer les exigences de fiabilité et d’exactitude de l’information journalistique. Concept multidimensionnel et difficile à circonscrire, tant dans les études des bases de données informatiques que dans celles du journalisme, il est toutefois à aborder dès la conception de tout système automatisant la production d’informations. Elle peut être définie à partir d’indicateurs pertinents au regard des usages journalistiques, dont la prise en compte peut aider à prévenir et gérer les erreurs.

Anticiper les problèmes avant qu’ils ne se posent

Dans le cadre du développement de Bxl’air bot, le système automatisé qui informe à propos de la qualité de l’air en région bruxelloise pour le magazine Alter Echos, une analyse du flux et du cycle de vie des données a permis de définir les moments opportuns en matière d’agrégation de données. Les cas de figure relatifs à une coupure de flux ou à l’absence de valeurs ont, par exemple, également été pris en compte. Toutefois, un contrôle humain est resté indispensable dans la mesure où les données qui nourrissent le système proviennent de pages web dont structure et contenus ne sont pas figés une fois pour toutes dans le temps. De plus, elles sont susceptibles de ne pas toujours être accessibles.

Cette analyse s’appuie sur une méthode d’évaluation, présentée au GIJC 2017 et fait l’objet d’une publication sur le site de l’Investigative journalism education consortium (IJEC). Celle-ci a pour objectif de rencontrer à la fois les challenges techniques et les challenges journalistiques tout en démontrant l’intérêt de faire se rencontrer deux terrains d’études (celui du journalisme et celui de la qualité des données) partageant des préoccupations communes.

S’attaquer à la problématique de la qualité des données en amont de la conception d’un système d’automatisation permet d’anticiper tant les problèmes liés aux flux de données que ceux liés à des anomalies dans les valeurs des données, bien que celles-ci puissent être soumises à une interprétation humaine (ce qui est le cas, par exemple, des valeurs nulles : sont-elles connues ou équivalent-elles à zéro ?).

Qualité des données et journalisme automatisé : prévenir plutôt que guérir

Des problèmes de qualité des données peuvent être rencontrés dans n’importe quel ensemble de données de toute organisation, publique ou privée. Au mieux, ils sont connus, au mieux, ils peuvent être traités.

Anticiper les problèmes avant qu’ils ne se posent

What is a fact in the age of generative AI? Fact-checking as an epistemological lens

[Keynote] Is journalism ethics in crisis?

Carte blanche : L’éthique journalistique est-elle mal en point ?

La qualité des données, un problème systémique en apprentissage automatique

Data quality, a systemic problem in machine learning

IA génératives et journalisme : une approche centrée sur les risques