La qualité des données joue un rôle central dans le développement de technologies d’apprentissage automatique, lesquelles s’appuient sur des familles d’algorithmes conçus pour formaliser et optimiser un processus nourri par de larges volumes de données. Néanmoins, de nombreux problèmes de qualité sont communs à ceux observés dans le domaine des bases de données relationnelles, où il est communément admis que des données de mauvaise qualité ne peuvent donner lieu à une information de qualité.
Cet article a été réalisé dans le cadre de la Réunion du groupe de contact FNRS « Analyse critique et amélioration de la qualité de l’information numérique », le 18/05/2022. Voir aussi : « Data quality challenges in the scope of a fitness for use » (SMALS).
La qualité des données est souvent définie comme « l’adéquation à l’utilisation », c’est-à-dire la capacité d’une collecte de données à répondre aux besoins des utilisateurs. Elle est également définie au prisme de plusieurs dimensions selon les principes de cohérence, d’unicité, d’actualité, d’exactitude, de validité et d’exhaustivité, qui sont les plus souvent cités tant par la littérature académique que par les praticiens. Cependant, définir la qualité des données est beaucoup plus complexe car les données empiriques, qui consistent en des observations faites dans le monde réel, ne reflètent qu’un certain état à un certain moment. Les valeurs des données sont susceptibles d’évoluer dans le temps, comme c’est également le cas pour les domaines d’application auxquels elles se rapportent. De plus, les besoins des utilisateurs peuvent également évoluer avec le temps, ce qui complique la définition de la qualité des données.
L’apprentissage automatique fait référence à des modèles de calcul entraînés sur des données empiriques pour imiter l’intelligence humaine en transformant des entrées en résultats basés sur des relations mathématiques difficiles à dériver par un raisonnement déductif ou une simple analyse statistique (Kläs et Vollmer, 2018). Son objectif est de donner du sens à des données complexes. Les données en entrée constituent une base factuelle pour le « raisonnement », dans un processus qui implique la traduction des données en une plus large représentation – ou abstraction –, qui va donner lieu à ce que l’on appelle une généralisation du modèle, c’est-à-dire l’utilisation de cette abstraction dans une forme pouvant être utilisée pour l’action (Lantz, 2014).
Dans ce domaine, la problématique de la qualité des données est d’autant plus complexe qu’elle concerne à la fois les données qui nourrissent le modèle, la représentation du modèle, les mesures d’évaluation et la précision du modèle, ainsi que les méthodes de recherche du meilleur modèle. L’évaluation de la qualité des données et leur validation s’opèrent donc en amont et en aval de ces processus, lesquels ne peuvent être envisagés autrement que dans le contexte de leur domaine d’application. C’est le principe d’aptitude à l’emploi – ou de fitness for use – posé par la norme ISO 9000, relative au management de la qualité (Boydens et van Hooland, 2014).
Les trois composants des algorithmes de machine learning sont la représentation du modèle, les mesures d’évaluation de la précision du modèle et les méthodes de recherche du meilleur modèle dans l’espace du modèle (c’est-à-dire l’optimisation du modèle). Comme ces trois composants sont étroitement liés, l’évaluation de la qualité des données pour les applications de machine learning est une tâche complexe. Ils font référence aux données de formation, aux données de validation et aux données de tests. Les données de validation sont utilisées pour ajuster les paramètres du modèle, et les données de test pour évaluer les performances du modèle (Gudivada et al., 2017)..
Le choix d’un algorithme de machine learning est fonction de la tâche que l’on souhaite accomplir, tout en tenant compte des forces et faiblesses de l’algorithme choisi, en ce compris en matière de qualité des données. Si l’on prend le KNN, par exemple, il s’agit d’un algorithme relativement rapide et efficace mais l’une de ses faiblesses est de ne pas bien traiter les données manquantes. Ceci est également l’un des points faibles de la régression linéaire multiple.
Le Naive Bayes est également simple, rapide et efficace, mais il n’est pas idéal pour des ensembles de données avec un grand nombre de caractéristiques numériques. Une importante faiblesse des arbres de décision est qu’une modification mineure dans les données d’entraînement peut donner lieu à d’importantes modifications dans la logique du résultat (Lantz, 2014).
Dans un modèle linéaire, un petit nombre de données/observations représentatives suffira pour la construction et le test du modèle. Même si on utilise un très grand nombre d’observations pour construire un modèle linéaire, cela peut ne pas en améliorer la performance (Gudivada et al., 2017).
Cycle de vie des données en machine learning
La mise à plat du cycle de vie des données dans un processus d’apprentissage automatique permet de mieux cerner les besoins en qualité tout au long de ce processus. L’étape de collection des données est importante, dans la mesure où des problèmes de qualité peuvent déjà se poser à ce niveau et, cela, en fonction de la source des données. Ceux-ci seront potentiellement plus particulièrement aigus lorsque l’on travaille avec de l’open data, des données générées par les utilisateurs, ou des données qui proviennent de sources multiples (Hair et Sarstedt, 2021).
L’étape du nettoyage est également fondamentale, dès lors qu’il s’agit non seulement de normaliser et de standardiser les données, mais de traiter également des problèmes classiques tels que des données manquantes, des doublons, de variables fortement corrélées, un grand nombre de variables, ou encore des valeurs aberrantes. Ces problèmes de qualité sont traditionnellement évalués avant d’utiliser des données mais dans le contexte de l’apprentissage automatique, la qualité des données est évaluée en amont et en aval de la construction du modèle.
Le travail d’enrichissement des données fait référence à l’annotation des données, qui servira de base à un apprentissage supervisé ou semi-supervisé. Il s’agit d’un travail de préparation important, dans la mesure où les données seront préparées en fonction de la tâche assignée au modèle. Cet enrichissement peut être réalisé de manière manuelle ou automatique. Dans les deux cas, des problèmes sont susceptibles de se poser quant à la fiabilité et la précision de ces données. Leur qualité est importante car elle a un impact direct sur l’ensemble du processus (Ridzuan et al., 2022).
Étiquetage des données d’entraînement
De grands ensembles de données étiquetées ont été essentiels au succès de l’apprentissage automatique supervisé dans des domaines tels que la classification des images, l’analyse des sentiments et la classification audio. Pourtant, les processus utilisés pour construire des ensembles de données impliquent souvent un certain degré d’étiquetage automatique ou de crowdsourcing, des techniques qui sont intrinsèquement sujettes aux erreurs, et cela même lorsque des procédures de contrôle sont mises en place pour leur correction (Northcutt et al., 2021).
Dans le cas du crowdsourcing, c’est à dire données annotées issues d’utilisateurs, la qualité de l’étiquetage se heurte à un manque d’expertise du domaine d’application, d’intérêt, de concentration ou d’autres facteurs humains relevant de la subjectivité et des référents socioculturels des annotateurs (Foidl et Felderer, 2019). Cet étiquetage non-expert, est facilité par des systèmes d’externalisation en ligne tels que Rent-A-Coder et Mechanical Turk d’Amazon, qui associent des travailleurs à des tâches arbitraires (bien définies), peut donner lieu à des coûts de correction élevés. Par ailleurs, s’il existe des outils et techniques pour évaluer la qualité des données en ce qui concerne les vérifications générales de nettoyage et de profilage, celles-ci ne sont pas applicables pour détecter les problèmes comme les étiquettes bruyantes ou l’existence de classes qui se chevauchent (Gupta et al., 2021).
Le concept d’entraînement désigne, quant à lui, le processus qui consiste à adapter le modèle aux données qui se trouvent en entrée du système. Le modèle appris par la machine est donc intrinsèquement lié aux données qu’il contient. Cela nécessite de procéder au profilage et à l’évaluation des données pour comprendre leur adéquation aux tâches d’apprentissage automatique: ne pas le faire peut entraîner des analyses inexactes et des décisions peu fiables (Gupta et al., 2021).
L’apprentissage automatique suppose que les données d’entraînement fournies au modèle soient similaires en termes de distribution, sinon la précision du modèle diminuera. Cela signifie aussi qu’il est important de détecter les erreurs le plus tôt possible dans le processus et de mettre en place des procédures de validation qui permettent de détecter les valeurs non attendues ou les incohérences dans les valeurs – par exemple, si le code d’un pays est US en lettres capitales pour les Etats-Unis puis qu’il est rédigé en minuscules us, cela sera considéré comme le code d’un nouveau pays (Polyzotis et al., 2018).
Validation des données et évaluation du modèle
La validation des données d’entraînement permet de s’assurer qu’elles ne contiennent pas d’erreurs susceptibles de se propager dans le modèle. A cela s’ajoute le contrôle de leur intégrité, de manière à s’assurer qu’elles ont la « forme » attendue avant de lancer le modèle. Cela peut être lié à une caractéristique, comme le code d’un pays ou un nombre suffisant de valeurs (Polyzotis et al., 2018).
Bien qu’il ait été souligné que la validation des données soit une exigence essentielle pour assurer la fiabilité et la qualité des systèmes logiciels basés sur l’apprentissage automatique, une validation exhaustive de toutes les données alimentées par ces systèmes est pratiquement impossible. De plus, il y a encore peu de discussions scientifiques sur les méthodes qui aident les ingénieurs logiciels de tels systèmes à déterminer le niveau de validation de chaque fonctionnalité (Foidl et Felderer, 2019).
L’évaluation de la performance du modèle consiste en une mesure de sa précision. On parle de biais lorsque le modèle génère des erreurs, c’est-à-dire qu’il présente des différences entre la valeur attendue et la valeur prédite, et on parle de variance lorsque le modèle est instable, en raison de petites fluctuations dans l’ensemble de données d’apprentissage. Comme il n’est pas possible de minimiser simultanément ces deux sources d’erreur, on parle de compromis biais-variance et cela s’applique à tous les types d’apprentissage supervisé.
D’autres indicateurs permettent d’évaluer la performance du modèle, tels que l’entropie, le taux de rappel, le taux de précision ou la validation croisée. L’évaluation de l’efficacité d’un modèle est donc également une étape essentielle en cela qu’elle permet d’améliorer le modèle en vue, bien sûr, d’améliorer la qualité des résultats. Dans certains cas, des opérations supplémentaires devront être réalisées comme la réduction de dimensionnalité, pour réduire le nombre de variable prédictives dans les données d’apprentissage
De nombreux défis à relever
Si l’on peut supposer que les systèmes d’apprentissage automatiques sont conçus pour minimiser les taux d’erreur et maximiser leur précision, comment y parvenir lorsque la discrimination est présente dès le départ ? Aussi, dans les données d’apprentissage, on retrouve régulièrement des données issues de décisions humaines antérieures.
Par ailleurs, ce n’est pas parce que l’on dispose de données de bonne qualité que les résultats seront forcément de qualité : c’est là tout le paradoxe des technologies d’apprentissage automatique, où les données doivent également être disponibles en nombre suffisant. C’est le phénomène de « data sparsity » ou de rareté des données, qui fait référence à une petite fraction de données contenant des données pertinentes.
Cette rareté peut provenir de valeurs manquantes, mais peut aussi apparaître lors du processus de génération des données comme c’est souvent le cas lorsque les données sont générées par les utilisateurs. Aussi, la rareté des données est problématique pour les données transactionnelles, qui sont traditionnellement le type de données utilisé dans le domaine du marketing pour définir les comportements des consommateurs ; mais elle l’est aussi lorsqu’il s’agit d’images, d’audio et de vidéo, car cela complique l’identification des caractéristiques de ces données. Cela a donc potentiellement un impact sur le pouvoir prédictif des algorithmes de machine learning qui utilisent ces données (Hair et Sarstedt, 2021). Toutefois, il existe des techniques pour remédier à ces problèmes de rareté ou de dispersion des données, notamment en s’appuyant sur du machine learning.
Un autre challenge épinglé dans le monde de la recherche en matière de gestion de la qualité – et qui est régulièrement négligé dans le monde de l’entreprise – est que plusieurs personnes jouent des rôles différents dans la collecte, le développement et la maintenance de ces différents ensembles données (Kim et al., 2017).
L’apprentissage automatique présente donc un ensemble différent de problèmes de qualité des données, qui consistent en autant de défis à relever tout au long du processus.
Voir la page sur le site du MASTIC – ULB
Télécharger les slides de présentation
Références
- Boydens, I., & Van Hooland, S. (2011). Hermeneutics applied to the quality of empirical databases. Journal of documentation.
- Elouataoui, W., Alaoui, I. E., & Gahi, Y. (2022). Data Quality in the Era of Big Data: A Global Review. Big Data Intelligence for Smart Applications, 1-25.
- Foidl, H., & Felderer, M. (2019, August). Risk-based data validation in machine learning-based software systems. In proceedings of the 3rd ACM SIGSOFT international workshop on machine learning techniques for software quality evaluation (pp. 13-18).
- Gudivada, V., Apon, A., & Ding, J. (2017). Data quality considerations for big data and machine learning: Going beyond data cleaning and transformations. International Journal on Advances in Software, 10(1), 1-20.
- Gupta, N., Patel, H., Afzal, S., Panwar, N., Mittal, R. S., Guttula, S., … & Saha, D. (2021). Data Quality Toolkit: Automatic assessment of data quality and remediation for machine learning datasets. arXiv preprint arXiv:2108.05935.
- Gupta, N., Mujumdar, S., Patel, H., Masuda, S., Panwar, N., Bandyopadhyay, S., … & Munigala, V. (2021, August). Data quality for machine learning tasks. In Proceedings of the 27th ACM SIGKDD Conference on Knowledge Discovery & Data Mining (pp. 4040-4041).
- Hair Jr, J. F., & Sarstedt, M. (2021). Data, measurement, and causal inferences in machine learning: opportunities and challenges for marketing. Journal of Marketing Theory and Practice, 29(1), 65-77.
- Kim, M., Zimmermann, T., DeLine, R., & Begel, A. (2017). Data scientists in software teams: State of the art and challenges. IEEE Transactions on Software Engineering, 44(11), 1024-1038.
- Lantz, B. (2019). Machine learning with R: expert techniques for predictive modeling. Packt publishing ltd.
- Lease, M. (2011, August). On quality control and machine learning in crowdsourcing. In Workshops at the Twenty-Fifth AAAI Conference on Artificial Intelligence.
- Northcutt, C. G., Athalye, A., & Mueller, J. (2021). Pervasive label errors in test sets destabilize machine learning benchmarks. arXiv preprint arXiv:2103.14749.
- Polyzotis, N., Roy, S., Whang, S. E., & Zinkevich, M. (2018). Data lifecycle challenges in production machine learning: a survey. ACM SIGMOD Record, 47(2), 17-28.
- Ridzuan, F., Wan Zainon, W. M. N., & Zairul, M. (2022). A Thematic Review on Data Quality Challenges and Dimension in the Era of Big Data. In Proceedings of the 12th National Technical Seminar on Unmanned System Technology 2020 (pp. 725-737). Springer, Singapore.