X

Blog 6 : collecte du corpus et préparation de l’analyse lexicale

22 décembre 2021

English

Carnet de recherche

Le projet de recherche 'Mixology' s’inscrit dans la perspective de l’open research. Son objectif est de sonder les opinions en période de crise, ici à partir d’un corpus collecté via l’API de Twitter, du 12 au 31 décembre 2021.

La collecte du corpus, via l’API de Twitter, se déroule depuis neuf jours. A ce stade, les quatre axes de requêtes ont donné lieu à :

La préparation de l’analyse lexicale a débuté, en anglais, sur base du corpus « vaccination ».

Les packages R utilisés sont : tm, tidytext, wordcloud

Cela a nécessité un important travail de nettoyage et de préparation des données, qui est toujours en cours.

Toutefois, cette activité a permis d’identifier une première série de termes les plus fréquemment utilisés par les près de 50.000 utilisateurs uniques, ainsi qu’à une liste de « stop words » adaptée au corpus (fitness for use). Ces premières versions sont disponibles sur Github : https://github.com/laurence001/mixology

Sur le fond, cette préparation a permis d’identifier une polarisation des opinions au moins autour de quatre thématiques, en ce qui concerne le corpus « vaccination » : la santé (pro-vaccins, anti-vaccins, anti-vaccins ARN, rôle des big pharma), l’information (faits, information et désinformation), les mesures politiques (adhésion et résistance avec un vocabulaire parfois emprunté aux plus sombres moments de l’histoire pour mettre en exergue une forme d’autoritarisme, pro et anti-obligation vaccinale). Dans ces trois cas, la question de la confiance émerge d’ores et déjà. Ces constats seront à confirmer lors de la phase d’analyse proprement dite, laquelle tiendra également compte de la langue française.

# # #

Lire aussi

Blog 21 : politiques, experts et journalistes

Blog 20 : pour la vaccination, contre les restrictions

Blog 19 : analyse de sentiment comparée

Blog 18 : une crise sanitaire et politique

Blog 17 : anatomie du sous-corpus « mesures politiques/sanitaires » (en)

Blog 16 : analyse de sentiment du sous-corpus ‘vaccination’ (en, part.2)

Blog 15 : analyse de sentiment comparée du sous-corpus ‘vaccination’ (en, part.1)

Blog 14 : un dictionnaire pour l’analyse de sentiment adapté à la crise Covid

Blog 13 : construire une liste de stop words

Blog 12 : principaux dictionnaires pour l’analyse de sentiment

Blog 11 : description statistique du corpus avec #RStats

Blog 10 : l’analyse de sentiment ou l’évaluation de la subjectivité

Blog 9 : modélisation thématique du corpus ‘vaccination’ (en)

Blog 8 : traitement linguistique et quantitatif du corpus ‘vaccination’ (anglais, part.2)

Blog 7 : traitement linguistique et quantitatif du corpus ‘vaccination’ (anglais, part.1)

Blog 6 : collecte du corpus et préparation de l’analyse lexicale

Blog 5: le package R « textclean »

Blog 4 : cibler la bonne requête et nettoyer des messy data

Blog 3 : Twitter API et rtweet

Blog 2 : collecte du corpus

Blog 1: le projet

Les enjeux de la recherche sur les usages médiatiques en temps de crise