La première partie du corpus de tweets en langue anglaise compte 311.882 entrées après nettoyage. Dans un document Word, cela représente plus de 11.000 pages.
Une approche statistique d’un corpus suppose de bien le connaître. Si différentes fonctions sont disponibles dans différents packages R, l’idée a été de rassembler l’ensemble de ces fonctions statistiques dans un seule et même fonction, en y ajoutant les métriques de lisibilité d’un texte. Ceci constitue un prolongement de l’outil développé dans le cadre de mon mémoire en Sciences et technologies de l’information et de la communication, consacré aux possibilités et limites de la génération automatique de textes dans un contexte journalistique. Cet outil a également été utilisé dans le cadre de ma thèse, qui avait analysé les conditions d’une association homme-machine dans le cadre du développement d’outils d’automatisation dans les rédactions.
Indicateurs de qualité en linguistique computationnelle : https://ohmybox.info/linguistics/fr/ (cet outil peut être utilisé pour des évaluations de petits corpus de textes)
Quatre métriques de lisibilité ont été utilisée dans la fonction mixology_statistics (l’idée étant de développer, plus tard, un package reprenant les principales fonctions originales développées dans le cadre de cette recherche).
Le Flesch-Kincaid Reading Ease (formule dérivée du score Flesch utilisé en littérature), calcule le degré de lisibilité d’un texte. Ce score varie généralement de 0 à 100.
Le Coleman-Liau Index est un test de lisibilité conçu par Meri Coleman et TL Liau pour évaluer l’intelligibilité d’un texte. Plus le score est bas, moins le texte est lisible.
Dans le système éducatif américain, le Flesch-Kincaid Grade Level équivaut au nombre d’années d’éducation dont une personne doit disposer pour comprendre le texte. Un score de 8 signifie généralement que le texte est lisible pour le grand public. Un score de 10-12 correspond à un niveau d’éducation supérieur.
L’Automated Readability Index (ARI) est une autre formule destinée à évaluer le degré d’éducation nécessaire pour comprendre un texte. A titre indicatif, un niveau de 8 correspond à la capacité de lecture d’un adolescent de 14 ans, et un niveau de 12 à celle d’un adolescent de 17 ans.
A noter que la fonction R mixology_statistics a envisagé le nombre de lignes comme équivalent au nombre de phrases, étant donné le format court d’un tweet. Ce parti-pris a été confirmé en utilisant la fonction nsentence du package R Quanteda, qui ne semble pas faire autre chose que compter le nombre de lignes.
L’analyse statistique de cette première partie du corpus en langue anglaise souligne le format court des tweets (en pratique, ils sont limités à 240 signes). Ce format ne semble pas en facilité la lisibilité : le Flesh-Kincaid Reading Ease est plutôt bas, ce qui signifie que les textes sont peu lisibles mais cela n’est pas tout à fait corrélé par le Coleman-Yau Index qui ne donne pas lieu à un aussi mauvais résultat (bien qu’il ne soit pas particulièrement élevé) ; le score Flesh-Kincaid correspond à une éducation liés à l’enseignement supérieur et universitaire (ce qui donne un indice sur le profil des utilisateurs de Twitter) ; l’ARI confirme que les auteurs des tweets sont généralement des adultes. Voir cette page pour connaître les formules utilisées pour réaliser ces opérations : https://ohmybox.info/linguistics/fr/formules.php
Références
Flesch, R. (1948). A new readability yardstick. Journal of applied psychology, 32(3), 221.
Kincaid, J. P., Fishburne Jr, R. P., Rogers, R. L., & Chissom, B. S. (1975). Derivation of new readability formulas (automated readability index, fog count and flesch reading ease formula) for navy enlisted personnel. Naval Technical Training Command Millington TN Research Branch.
Coleman, M., & Liau, T. L. (1975). A computer readability formula designed for machine scoring. Journal of Applied Psychology, 60(2), 283.
Kincaid, J. P., & Delionbach, L. J. (1973). Validation of the Automated Readability Index: A follow-up. Human Factors, 15(1), 17-20.
Senter, R. J., & Smith, E. A. (1967). Automated readability index. Cincinnati University, Ohio.