X

Blog 4 : cibler la bonne requête et nettoyer des messy data

2021-12-14

English

Carnet de recherche

Le projet de recherche 'Mixology' s’inscrit dans la perspective de l’open research. Son objectif est de sonder les opinions en période de crise, ici à partir d’un corpus collecté via l’API de Twitter, du 12 au 31 décembre 2021.

Plusieurs tests ont été nécessaires pour calibrer les requêtes, celles-ci se montrant moins performantes lorsqu’un # est utilisé. Une veille des tendances affichées sur Twitter a également conduit à l’ajout des mots-clés ARN et mRNA, puisque l’analyse du corpus sera réalisée en français et en anglais. Au total, quatre variables sont récupérées (pour quatre fichiers quotidiens, donc).

Chaque jeu de données est nettoyé via Open Refine : des fusions de colonnes sont parfois nécessaires car la colonne « text » est parfois scindée en plusieurs colonnes (enregistrement avec séparateur de virgule). Les trois corpus relatifs à une zone géographique définie présentent moins de problèmes de qualité que le corpus général, qui cible tous azimuts : big data ne veut pas forcément bonne data, cela se vérifie une fois de plus dans ce cas. Nous en sommes à trois jours de scraping. Ces actions vont se répéter quotidiennement avant d’aboutir à quatre corpus qui tiennent la route avant de pouvoir être analysés.

Lectures du jour :

# #

Lire aussi

Blog 21 : politiques, experts et journalistes

Blog 20 : pour la vaccination, contre les restrictions

Blog 19 : analyse de sentiment comparée

Blog 18 : une crise sanitaire et politique

Blog 17 : anatomie du sous-corpus « mesures politiques/sanitaires » (en)

Blog 16 : analyse de sentiment du sous-corpus ‘vaccination’ (en, part.2)

Blog 15 : analyse de sentiment comparée du sous-corpus ‘vaccination’ (en, part.1)

Blog 14 : un dictionnaire pour l’analyse de sentiment adapté à la crise Covid

Blog 13 : construire une liste de stop words

Blog 12 : principaux dictionnaires pour l’analyse de sentiment

Blog 11 : description statistique du corpus avec #RStats

Blog 10 : l’analyse de sentiment ou l’évaluation de la subjectivité

Blog 9 : modélisation thématique du corpus ‘vaccination’ (en)

Blog 8 : traitement linguistique et quantitatif du corpus ‘vaccination’ (anglais, part.2)

Blog 7 : traitement linguistique et quantitatif du corpus ‘vaccination’ (anglais, part.1)

Blog 6 : collecte du corpus et préparation de l’analyse lexicale

Blog 5: le package R « textclean »

Blog 4 : cibler la bonne requête et nettoyer des messy data

Blog 3 : Twitter API et rtweet

Blog 2 : collecte du corpus

Blog 1: le projet

Les enjeux de la recherche sur les usages médiatiques en temps de crise