Si la littérature scientifique recense de nombreux dictionnaires (ou lexiques) pour l’analyse de sentiment (voir Blog 10), certains sont plus régulièrement utilisés (Bogdan et Borza, 2020). Six d’entre eux sont explorés dans ce billet.
1) General Inquirer. Ce lexique a été développé en 1962, pour l’analyse de contenu en sciences sociales. Il est composé d’une liste de mots fréquents issus du Harvard IV Dictionary et du Lasswell Dictionary. Les catégories étiquetées à la main ont été améliorées au fil du temps par divers chercheurs. La version distribuée via le package R SentimentAnalysis – via la fonction load(DictionaryGI) – comporte 1.637 termes positifs et 2.005 termes négatifs. Elle est sensiblement différente de celle récupérée dans le cadre de cette recherche, laquelle compte 1.935 termes positifs contre 2.291 termes négatifs (Stone et al., 1966 ; Khoo et Johnkhan, 2018).
2) MPQA Subjectivity Lexicon. Ce dictionnaire s’inspire notamment du General Inquirer. Il comporte des étiquettes pour un peu plus de 8.000 mots répartis entre trois nuance négatives, positif, neutre et à la fois positif et négatif. Leur nombre peut varier selon les versions, celle utilisée dans le cadre de cette recherche en comporte 8.222, dont 570 sont étiquetés ‘neutre’. Il comprend des adjectifs, des adverbes, des verbes et des noms. Ce lexique a été agrégé à partir de diverses sources, y compris des sources développées manuellement ainsi que des sources construites automatiquement (Wilson et al., 2005 ; Khoo et Johnkhan, 2018). Ce package est également disponible via le package R abhy/sentiment.
3) Bing. C’est l’un des dictionnaires les plus utilisés, il comprend une liste d’environ 6.800 termes régulièrement mis à jour depuis 2004 selon les polarités négative et positive (Hu et Bing, 2004). Ce dictionnaire est disponible via la fonction R get_sentiments du package tidytext, de même que les dictionnaires suivants (NRC, Loughran et Afinn).
4) NRC. Ce lexique provient de trois sources : les 200 unigrammes et 200 bigrammes (adjectifs, adverbes, noms et verbes) issus du thésaurus de Macquarie avec les termes identifiés par correspondance avec le corpus n-grammes de Google qui suit l’évolution de la langue dans les publications imprimées, 640 termes extrait du WordNet Affect Lexicon, et les termes du General Inquirer. L’objet de ce dictionnaire est d’explorer les émotions, en fonction de huit catégories d’émotions ((colère, peur, anticipation, confiance, surprise, tristesse, joie et dégoût) et deux catégories de sentiment (positif et négatif). Il s’agit donc d’un dictionnaire beaucoup plus volumineux : la version disponible via le package R tidytext comporte 13.875 termes ((Mohammad et Turney, 2013; Khoo et Johnkhan, 2018).
5) Afinn. La particularité de ce lexique, développé entre 2009 et 2011 par Finn Arup Nielsen, est de classer les termes sur une échelle de Lickert allant de –5 à +5 (Nielsen, 2011). La version disponible via Tidytext comporte 2.477 termes (ce dictionnaire est également disponible via le package R corpus).
6) Loughran. Ce dictionnaire comprend une liste de termes financiers (Loughran et McDonald, 2011). Il comporte six catégories de sentiment : contraignant, litigieux, négatif, positif, superflu, incertain.
Ces différents dictionnaires ont été développés en langue anglaise, mais il existe de nombreux autres lexiques dans d’autres langues. On citera notamment le Lexicoder, en français, disponible via le packages R Quanteda, Le package syuzhet propose également une traduction du dictionnaire NRC, ainsi qu’une traduction du lexique du même nom.
Les résultats d’une analyse de sentiment varient en fonction du dictionnaire utilisé. Ils sont également à pondérer car un terme est toujours utilisé dans un contexte donné (un contexte dont ne tiennent pas compte les lexiques généraux) et il peut aussi être ambigu ou polysémique. L’analyse du corpus de tweets ‘vaccination’ en langue anglaise démontre que la quantité de termes négatifs ou positifs ne tirent pas les résultats dans l’un ou l’autre sens (et cela d’autant plus que les termes catégorisés comme négatifs sont généralement plus nombreux), et les résultats semblent plus précis si l’on dispose d’un lexique adapté au contexte ou d’un lexique comportant un nombre élevé de termes pour ainsi mieux refléter la richesse d’une langue. Voir aussi, sur cette page, un test réalisé sur un échantillon de 5.000 tweets (à suivre).
Références
Bogdan, M., & Borza, A. (2020). Big Data Analytics and Firm Performance: A Text Mining Approach. In Proceedings of the International Management Conference (Vol. 14, No. 1, pp. 549-560). Faculty of Management, Academy of Economic Studies, Bucharest, Romania.
Hu, M., & Liu, B. (2004, August). Mining and summarizing customer reviews. In Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining (pp. 168-177).
Khoo, C. S., & Johnkhan, S. B. (2018). Lexicon-based sentiment analysis: Comparative evaluation of six sentiment lexicons. Journal of Information Science, 44(4), 491-511.
Loughran, T., & McDonald, B. (2020). Textual analysis in finance. Annual Review of Financial Economics, 12, 357-375.
Mohammad, S. M., & Turney, P. D. (2013). Crowdsourcing a word–emotion association lexicon. Computational intelligence, 29(3), 436-465.
Nielsen, F. Å. (2011). A new ANEW: Evaluation of a word list for sentiment analysis in microblogs. arXiv preprint arXiv:1103.2903.
Stone, P. J., Dunphy, D. C., Smith, M. S., & Ogilvie, D. M. (1966). The General Inquirer: A computer approach to content analysis in the behavioral sciences.
Wilson, T., Wiebe, J., & Hoffmann, P. (2005, October). Recognizing contextual polarity in phrase-level sentiment analysis. In Proceedings of human language technology conference and conference on empirical methods in natural language processing (pp. 347-354).