X

Blog 4 : cibler la bonne requête et nettoyer des messy data

2021-12-14

English

Carnet de recherche

Le projet de recherche 'Mixology' s’inscrit dans la perspective de l’open research. Son objectif est de sonder les opinions en période de crise, ici à partir d’un corpus collecté via l’API de Twitter, du 12 au 31 décembre 2021.

Plusieurs tests ont été nécessaires pour calibrer les requêtes, celles-ci se montrant moins performantes lorsqu’un # est utilisé. Une veille des tendances affichées sur Twitter a également conduit à l’ajout des mots-clés ARN et mRNA, puisque l’analyse du corpus sera réalisée en français et en anglais. Au total, quatre variables sont récupérées (pour quatre fichiers quotidiens, donc).

corpus_vac <- search_tweets(
q = "vaccination OR vaccine OR ARN OR mRNA OR bootser", retryonratelimit = TRUE, geocode = "52.897449,4.753000,850mi", type="mixed", include_rts = FALSE
)
corpus_pass2 <- search_tweets(
q = "covid OR sanitary AND pass OR \"safe ticket\"", retryonratelimit = TRUE, geocode = "52.897449,4.753000,850mi", type="mixed", include_rts = FALSE
)
corpus_protest <- search_tweets(
q = "anti-pass OR coronaprotest OR covid AND manifestation OR sanitary AND pass OR covid AND manifestation", retryonratelimit = TRUE, geocode = "52.897449,4.753000,850mi", type="mixed", include_rts = FALSE
)
corpus_gen <- search_tweets(
q = "vaccination OR vaccine OR anti-pass OR coronaprotest OR MRNa OR ARN OR Pfizer OR Moderna", retryonratelimit = TRUE, type="mixed", include_rts = FALSE
)
view raw queries.R hosted with ❤ by GitHub

Chaque jeu de données est nettoyé via Open Refine : des fusions de colonnes sont parfois nécessaires car la colonne « text » est parfois scindée en plusieurs colonnes (enregistrement avec séparateur de virgule). Les trois corpus relatifs à une zone géographique définie présentent moins de problèmes de qualité que le corpus général, qui cible tous azimuts : big data ne veut pas forcément bonne data, cela se vérifie une fois de plus dans ce cas. Nous en sommes à trois jours de scraping. Ces actions vont se répéter quotidiennement avant d’aboutir à quatre corpus qui tiennent la route avant de pouvoir être analysés.

Lectures du jour :

# #

Lire aussi

Blog 21 : politiques, experts et journalistes

Blog 20 : pour la vaccination, contre les restrictions

Blog 19 : analyse de sentiment comparée

Blog 18 : une crise sanitaire et politique

Blog 17 : anatomie du sous-corpus « mesures politiques/sanitaires » (en)

Blog 16 : analyse de sentiment du sous-corpus ‘vaccination’ (en, part.2)

Blog 15 : analyse de sentiment comparée du sous-corpus ‘vaccination’ (en, part.1)

Blog 14 : un dictionnaire pour l’analyse de sentiment adapté à la crise Covid

Blog 13 : construire une liste de stop words

Blog 12 : principaux dictionnaires pour l’analyse de sentiment

Blog 11 : description statistique du corpus avec #RStats

Blog 10 : l’analyse de sentiment ou l’évaluation de la subjectivité

Blog 9 : modélisation thématique du corpus ‘vaccination’ (en)

Blog 8 : traitement linguistique et quantitatif du corpus ‘vaccination’ (anglais, part.2)

Blog 7 : traitement linguistique et quantitatif du corpus ‘vaccination’ (anglais, part.1)

Blog 6 : collecte du corpus et préparation de l’analyse lexicale

Blog 5: le package R « textclean »

Blog 4 : cibler la bonne requête et nettoyer des messy data

Blog 3 : Twitter API et rtweet

Blog 2 : collecte du corpus

Blog 1: le projet

Les enjeux de la recherche sur les usages médiatiques en temps de crise