Décrypter les big, fast et open data

Big Fast Open Data Que se cache-t-il derrière les concepts de « big data », « open data » et « fast data » ? Des expressions simples de prime abord, explique Joël Courtois dans la préface de « Big, fast, open data. Décrire, décrypter et prédire le monde : l’avènement des données » (FYP, 2014), qui pose également la question du pourquoi un tel engouement autour du sujet ? « Si les data et leur traitement sont la raison d’être de l’informatique depuis sa création, alors que s’est-il passé ces dernières années pour passer de la data au big data. En quoi s’agit-il d’une révolution ? ». Les volumes de données produits au cours de ces dernières années rendent impossible « de les manipuler avec les outils de gestion de bases de données traditionnels », note Yannick Lejeune dans l’introduction. Il souligne également que les algorithmes modernes sont désormais capables de faire parler les données « pour extrapoler et en générer d’autres, plus complexes et plus complètes, par le jeu des corrélations ».

Les 3 « V » des données

Les données seraient caractérisées par trois « V », théorie développée par Doug Laney en 2001 : volume, vélocité et variété. Lejeune note que « certaines entreprises ont ajouté d’autres critères à cette manière de voir les données, parmi lesquels la variabilité, la véracité et la complexité ». Une fois la partie technique écartée, poursuit-il, « la diversité des usages montre la diversité des référentiels utilisés par chacun ». Aujourd’hui, le problème des données se situe moins au niveau de la collecte que de leur sélection, leur manipulation, leur analyse et leur utilisation.

L’ouvrage, conçu par l’EPITA (école d’ingénieurs en informatique), s’articule autour d’interviews d’acteurs du monde des données, de manière à aborder les différents domaines d’exploitation des données : de la quantification du soi et/ou de la société aux domaines sportifs, du digital entertainment (jeux vidéo), de l’e-gouvernance (open data), de la cybersécurité et de l’intelligence économique, des villes intelligentes (smart cities) et du marketing. La publication aborde également les thématiques de la valorisation des données, et de leur cadre législatif et juridique.

Le dernier chapitre rappelle que la donnée est liée aux champs d’études quantitatifs, et est donc intimement liée à la science. « Les grands laboratoires ont été parmi les premiers organismes à faire usage des métadonnées dans e cadre d’expériences à grande(s) échelle(s) et celles-ci ont bouleversé la recherche, les métiers, les outils, et ouvert des champs d’investigation jusqu’alors inexplorés ». Henri Verdier, administrateur général des données de l’Etat français, rappellera également, en guise de conclusion, que « une donnée est toujours un artefact et il y a tout un ensemble de choix économiques et sociaux qui font que c’est cette donnée-là qui est produite. Même si cela coûte de moins en moins cher, quelqu’un a payé pour produire les données. »

Gouvernance algorithmique et déontologie

Plus loin, il estimera que la question de la gouvernance algorithmique est « plus compliquée qu’il n’y paraît » et que « l’humain qui s’adosse à la machine reste ce qu’il y a de plus fort, pour l’instant ». Et il se dira favorable à des règles déontologiques (voire légales) à appliquer aux entreprises « dont la puissance vient de leur capacité à utiliser des données (…) La presse est encadrée par des centaines de règles qui garantissent la liberté d’expression et le pluralisme des opinions (…) A l’inverse, lorsque Google amène 60% du trafic de la presse, il n’y a aucune obligation issue du droit de la presse. »

Décrypter les big, fast et open data

Les 3 « V » des données

Gouvernance algorithmique et déontologie

What is a fact in the age of generative AI? Fact-checking as an epistemological lens

[Keynote] Is journalism ethics in crisis?

Carte blanche : L’éthique journalistique est-elle mal en point ?

La qualité des données, un problème systémique en apprentissage automatique

Data quality, a systemic problem in machine learning

IA génératives et journalisme : une approche centrée sur les risques