X

La qualité des données, un problème systémique en apprentissage automatique

Laurence Dierickx

2026-01-07

En apprentissage automatique, la qualité des données conditionne directement la performance et la robustesse des systèmes. Mais s’il est entendu que sans données de qualité, aucun modèle de machine learning ne peut produire des résultats fiables, les grand modèles de langage (LLMs) introduisent des niveaux de complexité supplémentaires qui rendent la maîtrise de la qualité des données quasiment hors de portée.

La problématique de la qualité des données en machine learning est d’autant plus complexe qu’elle concerne à la fois les données qui nourrissent le modèle, la représentation du modèle, les mesures d’évaluation et la précision du modèle, ainsi que les méthodes de recherche du meilleur modèle. La qualité ne se situe donc pas à un seul niveau, mais traverse l’ensemble du cycle de vie du système. L’évaluation de la qualité des données et leur validation s’opèrent ainsi en amont et en aval de ces processus.

L’apprentissage automatique repose sur des modèles entraînés sur des données empiriques. Il permet de produire des résultats à partir de relations mathématiques complexes, difficiles à dériver par un raisonnement déductif ou une simple analyse statistique. Les données en entrée constituent une base factuelle pour le « raisonnement » du système, dans un processus qui implique leur traduction dans une représentation plus large — ou abstraction. Cette abstraction donne lieu à ce que l’on appelle la généralisation du modèle, c’est-à-dire la capacité à utiliser cette représentation pour produire des résultats exploitables pour l’action dans des situations nouvelles.

Les trois composants fondamentaux des algorithmes de machine learning sont la représentation du modèle (par exemple les caractéristiques, paramètres ou espaces de représentation), les mesures d’évaluation de la précision du modèle, et les méthodes de recherche du meilleur modèle dans l’espace du modèle, c’est-à-dire les techniques d’optimisation.

Ces trois composants étant étroitement liés, l’évaluation de la qualité des données pour les applications de machine learning constitue une tâche complexe. Ils font référence à différents ensembles de données : les données de formation, les données de validation et les données de test. Les données de validation sont utilisées pour ajuster les paramètres du modèle, tandis que les données de test servent à évaluer ses performances sur des données inédites.

Acquisition et validation

L’étape d’acquisition des données est déterminante, dans la mesure où des problèmes de qualité peuvent apparaître dès ce stade, en fonction de la nature et de la fiabilité des sources. Ces problèmes sont souvent plus aigus lorsque l’on travaille avec de l’open data, des données générées par les utilisateurs, ou des données issues de sources multiples, hétérogènes et faiblement documentées.

L’étape du nettoyage des données est fondamentale. Elle consiste non seulement à normaliser et standardiser les données, mais également à traiter des problèmes classiques de qualité tels que les données manquantes, les doublons, les variables fortement corrélées, un nombre excessif de variables ou encore les valeurs aberrantes. Si ces problèmes sont traditionnellement évalués avant l’utilisation des données, dans le contexte de l’apprentissage automatique la qualité des données est également évaluée a posteriori, au regard des performances et du comportement du modèle.

Le travail d’enrichissement des données fait référence à leur annotation, qui sert de base à un apprentissage supervisé ou semi-supervisé. Il s’agit d’une phase de préparation essentielle, dans la mesure où les données sont structurées et qualifiées en fonction de la tâche assignée au modèle. Cet enrichissement peut être réalisé de manière manuelle ou automatique, avec des enjeux directs de fiabilité et de cohérence.

Le concept d’entraînement désigne le processus par lequel le modèle est ajusté aux données fournies en entrée du système. Le modèle appris est ainsi intrinsèquement dépendant des données sur lesquelles il a été entraîné. Cela implique de procéder au profilage et à l’évaluation des données afin de vérifier leur adéquation aux tâches d’apprentissage automatique.

La validation des données d’entraînement inclut le contrôle de leur intégrité et de leur distribution. Un jeu de données peut produire d’excellents résultats en laboratoire tout en échouant lorsqu’il est confronté à des données issues du réel observable.

Bien que la validation des données soit une exigence essentielle pour assurer la fiabilité et la qualité des systèmes logiciels basés sur l’apprentissage automatique, une validation exhaustive de toutes les données alimentant ces systèmes est pratiquement impossible. Un autre facteur de complexité réside dans la multiplicité des acteurs impliqués : plusieurs personnes ou équipes peuvent intervenir successivement dans la collecte, le développement, l’annotation et la maintenance des différents ensembles de données, rendant la responsabilité de la qualité difficile à attribuer.

L’apprentissage automatique nécessite donc, à chaque étape, des données présentant des caractéristiques qualitatives adaptées. Cela implique de détecter les erreurs le plus tôt possible dans le processus et de mettre en place des procédures de validation capables d’identifier des valeurs non attendues, des incohérences ou des dérives dans les données.

La question des biais et de la rareté

Les ensembles de données d’apprentissage intègrent fréquemment des décisions humaines antérieures. Des données techniquement cohérentes peuvent néanmoins véhiculer des biais sociaux ou organisationnels. Si les données d’entraînement sont biaisées, les résultats produits par le modèle le seront également. À défaut, la précision du modèle diminue. Un jeu de données peut produire d’excellents résultats en laboratoire tout en échouant lorsqu’il est confronté à des données issues du réel observable.

Si l’on peut supposer que les systèmes d’apprentissage automatique sont conçus pour minimiser les taux d’erreur et maximiser leur précision, cette ambition se heurte à un problème fondamental lorsque la discrimination est présente dès les données d’origine. Les ensembles de données d’apprentissage intègrent fréquemment des décisions humaines antérieures.

Ainsi, des données techniquement cohérentes et bien formées peuvent néanmoins véhiculer des biais sociaux ou organisationnels. Si les données d’entraînement sont biaisées, les résultats produits par le modèle le seront également, reproduisant et parfois amplifiant ces biais.

Disposer de données de bonne qualité ne garantit pas nécessairement des résultats de qualité. L’un des paradoxes de l’apprentissage automatique réside dans la nécessité de disposer de données à la fois pertinentes et disponibles en quantité suffisante. Ce phénomène, connu sous le nom de « data sparsity » ou rareté des données, désigne une situation dans laquelle seule une faible fraction des données contient une information réellement pertinente pour la tâche considérée. Cette rareté peut provenir de valeurs manquantes, mais aussi du processus même de génération des données, notamment lorsqu’elles sont produites par les utilisateurs.

LLMs : un défi pour la qualité des données

Les grands modèles de langage (LLMs) introduisent une complexité supplémentaire dans la problématique de la qualité des données. L’acquisition des données s’opère à très grande échelle, à partir de sources hétérogènes largement brassées, souvent sans validation fine ni contextualisation des usages initiaux. Ces données sont ensuite agrégées et transformées au cours de l’entraînement, perdant progressivement leur traçabilité et leur ancrage sémantique d’origine.

Enfin, elles sont stockées et représentées dans des espaces mathématiques abstraits — des espaces de vecteurs de grande dimension — au sein desquels il n’est plus possible d’agir directement sur la qualité des données individuelles, mais uniquement sur les comportements globaux du modèle. La qualité des données émerge alors statistiquement du modèle lui-même, déplaçant les enjeux de validation, de correction, de responsabilité et de gouvernance vers des mécanismes indirects, a posteriori, et fondamentalement plus difficiles à maîtriser.

Les modèles de langage de petite taille (Small Language Models, SLMs) offrent un compromis intéressant en matière de qualité de données : leur périmètre fonctionnel restreint et leur spécialisation sur des tâches ou des domaines précis permettent une meilleure maîtrise des jeux de données, tant pour la sélection que pour la validation. Cette réduction d’échelle facilite la traçabilité des sources, l’identification des biais et l’évaluation des comportements du modèle. Elle n’élimine toutefois pas les enjeux structurels liés à la qualité, à la représentativité ou à l’évolution des données dans le temps.