Le fact-checking automatisé est un autre versant de l’apprentissage automatique dans un contexte journalistique. Son développement part du postulat qu’il y a de plus en plus de désinformation en ligne, et que la vérification de ces faits disséminés via les réseaux sociaux ou mis en avant par les moteurs de recherche peut être prise en charge de manière automatique, pour en accélérer le processus.
La recherche en fact-checking automatisé se développe essentiellement dans le domaine des sciences de l’informatique et très peu de travaux prennent en compte le journalisme en tant que domaine d’application. La majorité des approches développées s’inscrivent davantage dans une perspective déterministe, en cela que le fact-checking automatisé se réduirait à une solution technologique permettant de résoudre des problèmes sociaux, en se concentrant essentiellement sur les processus et performances des modèles.
Lorsque la recherche considère le contexte journalistique, c’est la complémentarité entre le journaliste et l’outil est ce qui est le plus fréquemment souligné, car le fact-checking est un processus chronophage qui nécessite toujours une intervention humaine, soit pour évaluer la validité d’une affirmation, soit pour s’adapter à des dynamiques rédactionnelles. Cela tient également aux particularités des procédures de fact-checking qui peuvent concerner du texte mais aussi de l’audio, de l’image et de la vidéo. Cela étant, l’évaluation de l’authenticité d’informations s’inscrit dans le cadre d’un processus complexe, que ce soit dans une prise en charge humaine ou dans une prise en charge automatisée, et les systèmes actuels ne donnent pas (encore) lieu à des résultats permettant un passage à grande échelle.
Par ailleurs, prendre en compte des utilisateurs finaux nécessite de s’intéresser à leurs besoins dans leur relation à l’outil. Le premier d’entre eux est celui de la confiance dans l’outil, laquelle peut se traduire dans la conception d’une interface pouvant être utilisée avec un minimum de connaissances techniques. Elle se trouve également dans l’explicabilité du système d’information – pourquoi un système est arrivé à un résultat donné – ainsi que dans l’intégration des valeurs des utilisateurs finaux. Cette nécessaire compatibilité d’un artefact technologique avec les idéaux et les valeurs journalistiques est d’ailleurs soulignée depuis plusieurs années, dans le cadre plus général du développement d’outils d’automatisation dans le monde de l’information.
La fiabilité de l’outil est un autre préalable, et celle-ci peut être garantie par l’intégration du point de vue de l’utilisateur final, par exemple en associant des journalistes et des fact-checkers professionnels à la conception d’outils d’apprentissage automatique, notamment dans la prise en charge de l’étiquetage des jeux de données d’entraînement, dès lors que ceux-ci nécessitent une expertise humaine. L’intégration de cette expertise renforce la fiabilité du système et a également pour autre avantage d’en améliorer la transparence, alors que très souvent, les systèmes d’apprentissage automatique sont comparés à des boîtes noires.
Toutefois, les experts ne sont pas nécessairement mobilisés dans le cadre de la recherche en fact-checking automatisé. On se retrouve ici dans toute la problématique du crowdsourcing, pris en charge par de non-experts. Ceci qui induit la nécessité d’assurer un contrôle de qualité, y compris pour corriger les préjugés humains. Ce n’est pas seulement une question de fiabilité des données mais aussi une question d’exactitude. Aussi, les jeux de données construits à partir de Wikipédia soulèvent les mêmes problèmes de qualité potentiels que pour tout autre contenu généré par les utilisateurs, que ce soit en termes de confiance, de fiabilité ou de précision.