(Bien) utiliser les statistiques en sciences sociales (et en journalisme)

Que ce soit en recherche ou dans mes cours auprès d’étudiants en (data)journalisme, je constate régulièrement que les statistiques sont utilisées de manière mécanique, le plus souvent limitées à des descriptifs simples. L’objectif de ce billet est de proposer un fil conducteur pour mieux comprendre le rôle des principaux outils statistiques : ce qu’ils permettent de dire, et ce qu’ils ne permettent pas de conclure.

Même les statistiques descriptives ne sont pas neutres

On présente souvent les statistiques descriptives (moyenne, médiane, écart-type, pourcentages) comme une étape « neutre » de l’analyse, dès lors qu’elles consistent à décrire les données avant de passer à leur interprétation. Cette vision est pourtant trompeuse car décrire, c’est déjà choisir un cadre d’interprétation.

Une moyenne suppose implicitement une certaine homogénéité des données. Par exemple, en journalisme économique, annoncer un “revenu moyen” dans une population peut être trompeur si celle-ci est très inégalitaire : une petite proportion de hauts revenus peut tirer la moyenne vers le haut et donner une image biaisée de la situation réelle de la majorité.

Une médiane repose sur l’idée que la position centrale est informative. En sciences sociales, on utilise souvent le revenu médian pour décrire une population. Cela permet d’éviter l’effet des valeurs extrêmes, mais peut masquer des réalités importantes, comme l’existence de groupes très distincts (par exemple une classe moyenne stable et une population précaire en forte difficulté).

Un pourcentage implique que les catégories agrégées sont pertinentes et comparables. En journalisme, dire que « 60 % des jeunes soutiennent une mesure » suppose que la catégorie « jeunes » est homogène, alors qu’elle peut regrouper des profils très différents selon l’âge, le niveau d’éducation ou la situation socio-économique.

L’écart-type est un autre bon exemple de cette tension entre usage courant et interprétation fragile. Il est omniprésent, mais rarement interrogé. En théorie, il mesure la dispersion autour de la moyenne. En pratique, son interprétation est beaucoup moins évidente. Deux distributions très différentes peuvent avoir le même écart-type. Des distributions asymétriques peuvent rendre cette mesure peu informative. Et, surtout, il est souvent mobilisé sans que la distribution réelle des données soit examinée.

Cette utilisation routinière peut produire des comparaisons artificiellement symétriques entre des groupes qui ne le sont pas. Résumer des données par une « moyenne ± écart-type » donne une impression de structure simple et comparable, alors que la réalité peut être beaucoup plus complexe. Des distributions bimodales, des effets de seuil ou encore des sous-populations distinctes peuvent ainsi être complètement invisibilisés par ce type de résumé.

Ce problème apparaît encore plus clairement dans certaines situations où l’agrégation des données modifie complètement l’interprétation. Le paradoxe de Simpson en est un exemple classique : une tendance observée dans plusieurs sous-groupes peut disparaître, voire s’inverser, lorsque les données sont agrégées. Autrement dit, selon le niveau d’analyse retenu, les données peuvent sembler raconter des histoires contradictoires.

Ce type de situation n’est pas exceptionnel en sciences sociales ou en (data) journalisme. Il rappelle qu’un même jeu de données peut produire des conclusions différentes selon la manière dont il est découpé, regroupé ou résumé. Les choix de catégorisation, de regroupement ou de niveau d’agrégation ne sont jamais neutres : ils orientent directement les résultats observés.

La statistique descriptive n’est donc pas un simple préambule à l’analyse. Elle constitue déjà une première étape d’interprétation, qui façonne la manière dont les données sont perçues et comprises.

Associations et comparaisons entre variables catégorielles

Les statistiques descriptives ne suffisent pas à décrire correctement les relations entre variables. Observer des différences de pourcentages ou de moyennes peut suggérer des associations, mais ne permet pas de savoir si ces différences sont robustes ou simplement dues au hasard.

Pour les variables catégorielles, le test du Chi-square est couramment utilisé pour évaluer l’indépendance entre deux variables, par exemple entre le genre et une opinion politique. Ce test est simple et fonctionne bien sur de grands échantillons, mais il repose sur une logique limitée : il permet de détecter l’existence d’une association, sans en décrire la structure, ni en fournir une direction claire ou une mesure directement interprétable de son intensité. Pour de petits échantillons ou lorsque certaines catégories sont peu représentées, on utilise plutôt le test exact de Fisher, qui repose sur une logique similaire mais sans approximation asymptotique.

Dans les deux cas, une erreur fréquente consiste à confondre une association statistiquement significative avec une relation substantielle. Pour aller plus loin, il est nécessaire d’introduire des mesures de taille d’effet adaptées aux variables catégorielles, comme le V de Cramér ou le coefficient phi, qui permettent d’évaluer l’intensité de l’association indépendamment de la taille de l’échantillon.

Lorsqu’il s’agit de comparer des variables continues entre groupes, le test t de Student est l’outil le plus utilisé. Il permet de tester si deux moyennes diffèrent de manière statistiquement significative. Mais là encore, son interprétation repose sur plusieurs hypothèses importantes : une distribution approximativement normale des données, l’indépendance des observations, et, selon les versions, une homogénéité des variances entre groupes. Dans les données sociales réelles, ces conditions sont rarement pleinement satisfaites.

Cela ne signifie pas qu’il faille abandonner systématiquement le test t, qui reste relativement robuste à certaines violations, notamment lorsque les tailles d’échantillon sont suffisantes. En revanche, lorsque les écarts aux hypothèses sont importants (distributions très asymétriques, présence d’outliers, petits échantillons), d’autres approches peuvent être plus adaptées.

On peut par exemple utiliser des tests non paramétriques, comme le test de Mann–Whitney, qui ne repose pas sur l’hypothèse de normalité et compare les distributions de manière plus générale. Dans d’autres cas, des approches par bootstrap permettent d’estimer les différences entre groupes sans hypothèses fortes sur la forme des données. Enfin, lorsqu’il existe des différences de variance importantes entre groupes, des versions adaptées du test t (comme le test de Welch) peuvent être utilisées.

Ces alternatives rappellent un point essentiel : il n’existe pas de test universel. Le choix d’un outil dépend toujours de la structure des données et de la question posée. Les tests statistiques ne produisent pas des conclusions automatiques ; ils apportent des éléments de réponse dans un cadre précis, qui doit être explicitement compris pour être interprété correctement.

Les problèmes d’interprétation apparaissent particulièrement clairement lorsqu’on passe des résultats statistiques à des conclusions substantielles. En sciences sociales et en datajournalisme, plusieurs erreurs reviennent de manière récurrente.

Un premier cas fréquent consiste à interpréter une différence statistiquement significative comme une différence importante. Par exemple, dans une enquête d’opinion, une variation de quelques points de pourcentage entre deux groupes peut être significative sur le plan statistique tout en étant négligeable sur le plan empirique. À l’inverse, des écarts potentiellement importants peuvent ne pas être détectés comme significatifs en raison d’un échantillon trop faible.

Un deuxième cas concerne les comparaisons de groupes sans contrôle des variables contextuelles. Observer que deux populations diffèrent sur une variable (revenu, opinion, comportement) ne dit rien, en soi, sur les mécanismes à l’origine de cette différence. Sans prise en compte de facteurs comme l’âge, le niveau d’éducation ou la position sociale, on risque d’attribuer à tort une relation directe à ce qui relève en réalité d’effets de structure.

Un troisième cas fréquent est celui des interprétations causales à partir de simples associations. Une corrélation ou une différence de moyenne entre deux groupes est parfois présentée comme un « effet » implicite, alors qu’aucun dispositif méthodologique ne permet de soutenir une relation causale. C’est particulièrement visible dans certains traitements médiatiques de données où la prudence méthodologique disparaît au profit d’une narration plus directe.

Factorielles, construits et régressions : passer à la modélisation

Avant même d’aborder la régression, une étape importante en sciences sociales consiste souvent à construire des variables synthétiques à partir de plusieurs indicateurs. C’est le cas des analyses factorielles, qui permettent de réduire la dimension des données en identifiant des structures latentes, ou encore de la construction d’échelles composites, souvent validées par des indicateurs comme l’alpha de Cronbach. Ces outils sont utilisés pour mesurer des concepts théoriques, comme la satisfaction ou les représentations sociales, qui ne sont pas directement observables.

La régression constitue ensuite un outil central car elle permet d’aller au-delà de la simple comparaison entre groupes ou variables. La régression linéaire est utilisée lorsque la variable dépendante est continue, tandis que la régression logistique est mobilisée lorsque la variable dépendante est binaire, par exemple pour estimer la probabilité d’un événement. Dans les deux cas, la régression permet de contrôler simultanément plusieurs variables, ce qui en fait un outil puissant pour isoler des associations conditionnelles entre variables.

Cependant, cet outil est très souvent surinterprété. Trois confusions reviennent de manière récurrente dans l’usage des modèles de régression : 1) le fait qu’une variable soit associée à une autre dans un modèle ne signifie pas qu’elle en est la cause ; 2) un coefficient de régression décrit une variation conditionnelle dans un modèle donné, pas un mécanisme causal en soi ; 3) un modèle statistique ne représente pas le monde social tel qu’il est, mais une simplification structurée des données observées.

Toute régression dépend fortement des choix de modélisation. Trois éléments sont particulièrement importants : les variables incluses, les variables exclues, et les interactions ignorées entre variables. Ces choix ne sont donc jamais neutres. Deux modèles construits sur les mêmes données peuvent conduire à des résultats différents, voire à des conclusions opposées, simplement en modifiant la spécification du modèle.

Le problème des p-values

La p-value est probablement l’outil statistique le plus mal compris et le plus mal utilisé en sciences sociales. Elle est souvent interprétée comme une mesure directe de la vérité d’un résultat, alors qu’elle ne dit pas cela. Elle ne signifie pas la probabilité que l’hypothèse soit vraie, ni l’importance d’un effet, ni la robustesse générale d’un résultat. Elle indique uniquement la probabilité d’observer des données au moins aussi extrêmes que celles observées, si l’hypothèse nulle était vraie.

Autrement dit, la p-value est conditionnelle à une hypothèse de départ : elle mesure la compatibilité des données avec un modèle dans lequel aucun effet n’existe.

En pratique, elle est pourtant très souvent réduite à une logique binaire : p < 0,05 devient synonyme de résultat “significatif”, tandis que p ≥ 0,05 est interprété comme “non significatif”. Cette simplification transforme un outil probabiliste en règle de décision automatique, qui masque l’incertitude réelle des estimations et conduit à une lecture trop rigide des résultats.

La taille d’effet permet de compléter cette lecture en mesurant l’importance réelle d’un phénomène, indépendamment de sa significativité statistique. Plusieurs indicateurs sont couramment utilisés selon les contextes : le d de Cohen pour comparer des moyennes, les odds ratios dans les modèles logistiques, ou encore le R² pour mesurer la part de variance expliquée par un modèle.

Ces mesures sont essentielles car elles permettent de distinguer un effet simplement détectable sur le plan statistique d’un effet réellement substantiel sur le plan empirique.

Un résultat peut en effet être statistiquement significatif tout en étant pratiquement négligeable, notamment lorsque les échantillons sont très grands. À l’inverse, un effet important peut ne pas atteindre le seuil de significativité statistique si les données sont insuffisantes ou trop bruitées.

Puissance statistique, multiplicité des tests et confusion causale : les limites de l’inférence

La puissance statistique correspond à la probabilité de détecter un effet réel lorsqu’il existe. Elle est pourtant souvent négligée en sciences sociales. De nombreuses études sont sous-dimensionnées et donc sous-puissantes, ce qui les rend peu fiables dans leurs conclusions négatives.

Cela entraîne plusieurs conséquences importantes. Les résultats deviennent d’abord instables d’une étude à l’autre. Les non-réplications sont ensuite fréquentes, ce qui fragilise la solidité des connaissances empiriques. Enfin, une absence de significativité est souvent interprétée à tort comme une absence d’effet, alors qu’elle peut simplement refléter un manque de puissance statistique.

Une absence de résultat n’est donc pas une preuve d’absence d’effet.

Cette difficulté est renforcée par un autre problème récurrent : la multiplicité des tests statistiques. Lorsqu’un grand nombre d’analyses est réalisé sur les mêmes données, la probabilité d’obtenir au moins un faux positif augmente mécaniquement. Cela peut conduire à sélectionner les résultats les plus “significatifs”, à négliger les résultats non concluants, ou encore à transformer des analyses exploratoires en conclusions affirmées.

Des corrections existent, notamment les ajustements de Bonferroni ou les procédures de contrôle du taux de faux découvertes (FDR), mais elles sont encore trop rarement appliquées ou correctement mises en œuvre dans les pratiques courantes.

Ces difficultés d’inférence sont enfin souvent aggravées par une confusion plus fondamentale entre corrélation et causalité. Deux variables peuvent êtreassociées sans qu’il existe de lien causal direct entre elles, en raison de variables confondantes, de causalité inverse ou de biais de sélection.

C’est pour cette raison que les approches contemporaines insistent de plus en plus sur des cadres explicites d’analyse causale, notamment les graphes acycliques dirigés (DAGs) ou les designs quasi-expérimentaux, qui visent à expliciter les conditions nécessaires pour interpréter une relation en termes causaux.

Conclusion

Les statistiques en sciences sociales et en journalisme de données ne constituent pas une machine à produire des résultats ou des explications. Elles sont un ensemble d’outils conçus pour répondre à des questions précises, dans des cadres bien définis. Mieux utiliser les statistiques ne signifie pas en mobiliser davantage, mais comprendre plus précisément ce qu’elles permettent de dire et surtout ce qu’elles ne permettent pas de conclure.