Blog 11 : description statistique du corpus avec #RStats

La première partie du corpus de tweets en langue anglaise compte 311.882 entrées après nettoyage. Dans un document Word, cela représente plus de 11.000 pages.

Une approche statistique d’un corpus suppose de bien le connaître. Si différentes fonctions sont disponibles dans différents packages R, l’idée a été de rassembler l’ensemble de ces fonctions statistiques dans un seule et même fonction, en y ajoutant les métriques de lisibilité d’un texte. Ceci constitue un prolongement de l’outil développé dans le cadre de mon mémoire en Sciences et technologies de l’information et de la communication, consacré aux possibilités et limites de la génération automatique de textes dans un contexte journalistique. Cet outil a également été utilisé dans le cadre de ma thèse, qui avait analysé les conditions d’une association homme-machine dans le cadre du développement d’outils d’automatisation dans les rédactions.

Indicateurs de qualité en linguistique computationnelle : https://ohmybox.info/linguistics/fr/ (cet outil peut être utilisé pour des évaluations de petits corpus de textes)

Quatre métriques de lisibilité ont été utilisée dans la fonction mixology_statistics (l’idée étant de développer, plus tard, un package reprenant les principales fonctions originales développées dans le cadre de cette recherche).

Le Flesch-Kincaid Reading Ease (formule dérivée du score Flesch utilisé en littérature), calcule le degré de lisibilité d’un texte. Ce score varie généralement de 0 à 100.

Le Coleman-Liau Index est un test de lisibilité conçu par Meri Coleman et TL Liau pour évaluer l’intelligibilité d’un texte. Plus le score est bas, moins le texte est lisible.

Dans le système éducatif américain, le Flesch-Kincaid Grade Level équivaut au nombre d’années d’éducation dont une personne doit disposer pour comprendre le texte. Un score de 8 signifie généralement que le texte est lisible pour le grand public. Un score de 10-12 correspond à un niveau d’éducation supérieur.

L’Automated Readability Index (ARI) est une autre formule destinée à évaluer le degré d’éducation nécessaire pour comprendre un texte. A titre indicatif, un niveau de 8 correspond à la capacité de lecture d’un adolescent de 14 ans, et un niveau de 12 à celle d’un adolescent de 17 ans.

A noter que la fonction R mixology_statistics a envisagé le nombre de lignes comme équivalent au nombre de phrases, étant donné le format court d’un tweet. Ce parti-pris a été confirmé en utilisant la fonction nsentence du package R Quanteda, qui ne semble pas faire autre chose que compter le nombre de lignes.

L’analyse statistique de cette première partie du corpus en langue anglaise souligne le format court des tweets (en pratique, ils sont limités à 240 signes). Ce format ne semble pas en facilité la lisibilité : le Flesh-Kincaid Reading Ease est plutôt bas, ce qui signifie que les textes sont peu lisibles mais cela n’est pas tout à fait corrélé par le Coleman-Yau Index qui ne donne pas lieu à un aussi mauvais résultat (bien qu’il ne soit pas particulièrement élevé) ; le score Flesh-Kincaid correspond à une éducation liés à l’enseignement supérieur et universitaire (ce qui donne un indice sur le profil des utilisateurs de Twitter) ; l’ARI confirme que les auteurs des tweets sont généralement des adultes. Voir cette page pour connaître les formules utilisées pour réaliser ces opérations : https://ohmybox.info/linguistics/fr/formules.php

Références

Flesch, R. (1948). A new readability yardstick. Journal of applied psychology, 32(3), 221.

Kincaid, J. P., Fishburne Jr, R. P., Rogers, R. L., & Chissom, B. S. (1975). Derivation of new readability formulas (automated readability index, fog count and flesch reading ease formula) for navy enlisted personnel. Naval Technical Training Command Millington TN Research Branch.

Coleman, M., & Liau, T. L. (1975). A computer readability formula designed for machine scoring. Journal of Applied Psychology, 60(2), 283.

Kincaid, J. P., & Delionbach, L. J. (1973). Validation of the Automated Readability Index: A follow-up. Human Factors, 15(1), 17-20.

Senter, R. J., & Smith, E. A. (1967). Automated readability index. Cincinnati University, Ohio.

Blog 11 : description statistique du corpus avec #RStats

Carnet de recherche

Références

Lire aussi

Blog 21 : politiques, experts et journalistes

Blog 20 : pour la vaccination, contre les restrictions

Blog 19 : analyse de sentiment comparée

Blog 18 : une crise sanitaire et politique

Blog 17 : anatomie du sous-corpus « mesures politiques/sanitaires » (en)

Blog 16 : analyse de sentiment du sous-corpus ‘vaccination’ (en, part.2)

Blog 15 : analyse de sentiment comparée du sous-corpus ‘vaccination’ (en, part.1)

Blog 14 : un dictionnaire pour l’analyse de sentiment adapté à la crise Covid

Blog 13 : construire une liste de stop words

Blog 12 : principaux dictionnaires pour l’analyse de sentiment

Blog 11 : description statistique du corpus avec #RStats

Blog 10 : l’analyse de sentiment ou l’évaluation de la subjectivité

Blog 9 : modélisation thématique du corpus ‘vaccination’ (en)

Blog 8 : traitement linguistique et quantitatif du corpus ‘vaccination’ (anglais, part.2)

Blog 7 : traitement linguistique et quantitatif du corpus ‘vaccination’ (anglais, part.1)

Blog 6 : collecte du corpus et préparation de l’analyse lexicale

Blog 5: le package R « textclean »

Blog 4 : cibler la bonne requête et nettoyer des messy data

Blog 3 : Twitter API et rtweet

Blog 2 : collecte du corpus

Blog 1: le projet

Les enjeux de la recherche sur les usages médiatiques en temps de crise