X

Blog 17 : anatomie du sous-corpus « mesures politiques/sanitaires » (en)

2022-02-18

English

Carnet de recherche

Le projet de recherche 'Mixology' s’inscrit dans la perspective de l’open research. Son objectif est de sonder les opinions en période de crise, ici à partir d’un corpus collecté via l’API de Twitter, du 12 au 31 décembre 2021.

153.558 observations récoltées entre les 12 et 21 décembres 2021, publiées par 80.039 utilisateurs uniques. Sur le plan statistique, les résultats ne divergent pas du corpus précédent avec une proportion de termes négatifs (« not », « no », « never », « without ») similaire (1,3%), et des scores semblables en ce qui concerne le Coleman-Yau Index et l’Automated Readability Index. Toutefois la lisibilité des échantillons de textes n’est pas très claire : le score Flesch-Kincaid Grade Level est très bas (mais convenons qu’un tweet, ce n’est pas de la littérature), tandis que le Flesch-Kincaid Reading Ease affiche une meilleure performance que celui du sous-corpus « vaccination ».

L’examen de la répartition par pays montre que le Royaume-Uni domine ce sous-corpus (85,49%), comme cela avait été observé dans le précédent sous-corpus.

 

L’analyse de la fréquence des n-grammes montre que ce corpus traite bien des mesures sanitaires et des politiques mises en œuvre pour lutter contre la pandémie, mais aussi que la question de la vaccination est prégnante. Les thématiques observées dans le sous-corpus « vaccination » se croisent dans ce second sous-corpus, posant la question de la pertinence de la séparation de ces deux sous-corpus, la crise portant d’évidence sur des aspects autant sanitaires que politiques. Toutefois, ce sous-corpus met davantage en avant le rôle de l’information et des médias.

 

L’analyse des bigrammes montrent des résultats largement influencés par la politique et l’actualité britannique : à l’époque, l’ombre d’un nouveau lockdown planait sur le pays. Dans le top 30 figurent trois personnalités politiques (Boris Johnson, le secrétaire d’Etat à la santé et à la protection sociale, Sajid Javid, et la première ministre d’Ecosse, Nicola Sturgeon) ainsi que le journaliste Piers Morgan. Lorsque l’on exclut le Royaume Uni, les bigrammes montrent une nette influence des Pays-Bas, où un lockdown strict est entré en vigueur le lundi 20 décembre, lequel incluait la fermeture des commerces non essentiels. La thématique du passeport vaccinal (ou certificat Covid, impliquant une vaccination, un test PCR négatif ou une preuve de rétablissement selon la politique nationale) apparaît de manière claire avec ou sans le RU, tandis que celle des effets secondaires des vaccins anti-Covid arrive en cinquième place des préoccupations en excluant le RU.

 

L’examen des trigrammes apporte une couche sémantique démontrant une nette opposition aux politiques de passeport vaccinal et de lockdown. Une autre tendance est celle d’une critique des vaccins qui ne fonctionneraient pas ou n’empêcheraient pas les transmissions ainsi qu’un débat autour des effets secondaires des vaccins, lequel oppose « pro » et « anti » vaccin Covid. Par ailleurs, un signe de désobéissance civile apparaît très nettement : « breaking lockdown rules ». En excluant les tweets publiés depuis le Royaume Uni, la plus forte tendance est celle des règles imposées aux touristes à l’étranger, et plus particulièrement en Thaïlande, et elle est suivie par les questions de l’efficacité des vaccins et des effets secondaires qui sont transversales aux deux sous-corpus en langue anglaise et à l’ensemble des pays examinés.

 

La v3 des stop words, la liste des mots négatifs ainsi qu’un échantillon anonymisé de ce sous-corpus (4.371 lignes) sont disponibles sur la page Github du projet.

 

# # #

Lire aussi

Blog 21 : politiques, experts et journalistes

Blog 20 : pour la vaccination, contre les restrictions

Blog 19 : analyse de sentiment comparée

Blog 18 : une crise sanitaire et politique

Blog 17 : anatomie du sous-corpus « mesures politiques/sanitaires » (en)

Blog 16 : analyse de sentiment du sous-corpus ‘vaccination’ (en, part.2)

Blog 15 : analyse de sentiment comparée du sous-corpus ‘vaccination’ (en, part.1)

Blog 14 : un dictionnaire pour l’analyse de sentiment adapté à la crise Covid

Blog 13 : construire une liste de stop words

Blog 12 : principaux dictionnaires pour l’analyse de sentiment

Blog 11 : description statistique du corpus avec #RStats

Blog 10 : l’analyse de sentiment ou l’évaluation de la subjectivité

Blog 9 : modélisation thématique du corpus ‘vaccination’ (en)

Blog 8 : traitement linguistique et quantitatif du corpus ‘vaccination’ (anglais, part.2)

Blog 7 : traitement linguistique et quantitatif du corpus ‘vaccination’ (anglais, part.1)

Blog 6 : collecte du corpus et préparation de l’analyse lexicale

Blog 5: le package R « textclean »

Blog 4 : cibler la bonne requête et nettoyer des messy data

Blog 3 : Twitter API et rtweet

Blog 2 : collecte du corpus

Blog 1: le projet

Les enjeux de la recherche sur les usages médiatiques en temps de crise