Blog 15 : analyse de sentiment comparée du sous-corpus ‘vaccination’ (en, part.1)

La première analyse de sentiment du sous-corpus ‘vaccin’ en anglais (voir Blog 7) a consisté à comparer les résultats obtenus avec six dictionnaires de sentiment et les deux dictionnaires Mixology Covid Lexicon et Mixology Lexicon (Blog 12 et Blog 14).

General Inquirer : si ce dictionnaire comporte davantage de termes négatifs, la question à se poser si cet étiquetage influe sur les résultats puisque le sentiment négatif domine, avec 51,17%. Toutefois, il n’’agit d’une courte majorité qui donne un indice à propos de la polarisation des débats autour des vaccins Covid.

MPQA Subjectivity Lexicon : ici, c’est le sentiment négatif qui domine également, avec 41,68%. Ce dictionnaire comporte pratiquement le double de termes que le dictionnaire précédent et une majorité écrasante de termes négatifs (4.911). Plus un dictionnaire compte de termes et plus ceux-ci sont étiquetés négatifs, cela voudrait-il dire que cela influe sur le résultat ?

Bing : les résultats montrent un sentiment négatif majoritaire (57,1%) mais si l’on ramène cela à une plus petite échelle, cela veut dire qu’un tweet sur deux de ce sous-corpus porte une coloration négative. Mais ici aussi, nous nous trouvons avec un dictionnaire dont la majorité des termes sont étiquetés négatifs.

NRC : ce dictionnaire a été abordé ici en termes de polarité négative/positive et n’a donc conservé que les résultats relatifs à ces deux catégories. Ce n’est donc pas tant aux pourcentages obtenus qu’il faut ici s’intéresser, mais à une tendance plutôt positive (22,22%). A noter qu’il s’agit d’un dictionnaire comportant un nombre beaucoup plus important de termes (13.875). Si l’on élargit la vue aux huit autres catégories de sentiment de ce dictionnaire, c’est la tendance plutôt négative qui prédomine, notamment avec le sentiment de peur (11%) et de colère (8,6%).

Afinn : l’échelle de Likert de -5 à 5 a été recatégorisée (négatif, positif, neutre). Ici, nous nous trouvons face à moins de termes, et à davantage de termes catégorisés négatif. Les résultats réfutent l’hypothèse d’influence du volume de termes compris dans une ou l’autre catégories, dès lors qu’ils montrent une tendance plutôt positive avec 52, 29%.

Loughran : ici aussi, la tendance observée est plutôt négative avec 47,47%, contre un sentiment positif de 22,8%. Le sentiment arrivant en troisième position est l’incertitude (17,52%). Ici aussi, le dictionnaire compte davantage de termes catégorisés négatifs.

Lorsque le dictionnaire prend en compte les catégories « ambigu » ou « neutre », cela n’influe généralement pas sur les résultats. Une explication pourrait être liée à un volume de termes assez faible dans ces catégories. Toutefois, les résultats obtenus avec le dictionnaire Afinn montrent que ce n’est pas parce qu’une catégorie est majoritaire, qu’elle donne lieu à un résultat faisant davantage pencher la balance vers cette catégorie, bien qu’en considérant l’ensemble des catégories, le sentiment négatif domine davantage avec des dictionnaires comportant davantage de termes négatifs. De plus, le nombre de termes contenus dans le dictionnaire ne semble pas exercer une influence particulière sur les résultats. Mais il faut rappeler que tous ces dictionnaires sont généralistes ou ont été développés dans un contexte particulier (l’économie, pour Loughran). La quantité (des termes et des termes contenus dans une catégorie) est-elle, pour autant, la seule explication possible de ces résultats ? Lorsqu’un dictionnaire est adapté au domaine d’application, comment les résultats évoluent-ils ?

Le Mixology Covid Lexicon (MCL), notamment réalisé à partir de la fréquence de unigrammes (voir Blog 14), et qui comporte pratiquement autant de termes catégorisés positif que négatif apporte un enseignement important : l’adéquation du dictionnaire avec son domaine d’application donne lieu à des résultats que l’on pourrait considérer comme plus précis, dès lors que la tendance négative générale s’inverse, sans ce que cela soit de manière très significative (54,75% pour le sentiment positif). Lorsque le dictionnaire est plus étoffé, avec un nombre de termes plus importants, cela n’influe pas sur les résultats : la même tendance est observée entre le MCL et le Mixology Lexicon (53,62% pour le sentiment positif). A la quantité, c’est donc la qualité du lexique qui apparaît comme la variable la plus significative à considérer lors d’une analyse de sentiment.

En termes qualitatifs, le principal enseignement de cette analyse est que les résultats ne démontrent pas que la balance penche de manière significative dans un sens ou dans l’autre, malgré les différences observées entre les huit dictionnaires mobilisés. Ceci peut donc être compris comme un indice de polarisation des débats autour de la vaccination, qui compterait pratiquement autant de partisans que d’opposants. Toutefois, ceci ne suffit pas pour déterminer autour de quoi les débats se cristallisent davantage, pas plus que cela ne permet de généraliser les résultats aux neuf pays d’Europe de l’Ouest retenus dans cet échantillon, et cela d’autant plus que le Royaume-Uni domine ce sous-corpus (à suivre).

Blog 15 : analyse de sentiment comparée du sous-corpus ‘vaccination’ (en, part.1)

Carnet de recherche

Lire aussi

Blog 21 : politiques, experts et journalistes

Blog 20 : pour la vaccination, contre les restrictions

Blog 19 : analyse de sentiment comparée

Blog 18 : une crise sanitaire et politique

Blog 17 : anatomie du sous-corpus « mesures politiques/sanitaires » (en)

Blog 16 : analyse de sentiment du sous-corpus ‘vaccination’ (en, part.2)

Blog 15 : analyse de sentiment comparée du sous-corpus ‘vaccination’ (en, part.1)

Blog 14 : un dictionnaire pour l’analyse de sentiment adapté à la crise Covid

Blog 13 : construire une liste de stop words

Blog 12 : principaux dictionnaires pour l’analyse de sentiment

Blog 11 : description statistique du corpus avec #RStats

Blog 10 : l’analyse de sentiment ou l’évaluation de la subjectivité

Blog 9 : modélisation thématique du corpus ‘vaccination’ (en)

Blog 8 : traitement linguistique et quantitatif du corpus ‘vaccination’ (anglais, part.2)

Blog 7 : traitement linguistique et quantitatif du corpus ‘vaccination’ (anglais, part.1)

Blog 6 : collecte du corpus et préparation de l’analyse lexicale

Blog 5: le package R « textclean »

Blog 4 : cibler la bonne requête et nettoyer des messy data

Blog 3 : Twitter API et rtweet

Blog 2 : collecte du corpus

Blog 1: le projet

Les enjeux de la recherche sur les usages médiatiques en temps de crise