L’utilisation et l’interprétation des valeurs p en recherche psychologique font l’objet de nombreux débats depuis plusieurs années. Une tendance particulièrement controversée est le signalement de résultats « marginalement significatifs », c’est-à-dire des valeurs p légèrement supérieures au seuil conventionnel de 0,05 mais inférieures à 0,10. Cet article examine en détail cette pratique, son évolution au fil du temps et ses implications pour la recherche en psychologie.

Contexte et définition des valeurs p marginalement significatives

En statistique inférentielle, la valeur p représente la probabilité d’obtenir un résultat au moins aussi extrême que celui observé, en supposant que l’hypothèse nulle soit vraie. Traditionnellement, un seuil de signification de 0,05 est utilisé pour rejeter l’hypothèse nulle et conclure à un effet statistiquement significatif.

Cependant, de nombreux chercheurs ont pris l’habitude de qualifier de « marginalement significatifs » les résultats dont la valeur p se situe entre 0,05 et 0,10. Cette pratique est controversée car elle élargit de facto le seuil de signification sans justification théorique solide.

Définition des valeurs p marginalement significatives

On considère généralement comme « marginalement significatives » les valeurs p comprises entre 0,05 et 0,10. Les termes couramment utilisés pour les décrire incluent :

  • « Marginalement significatif »
  • « Approchant la signification »
  • « Tendance vers la signification »
  • « Presque significatif »

Origines de cette pratique

L’utilisation de la notion de signification marginale remonte aux débuts de l’inférence statistique, mais s’est particulièrement répandue en psychologie à partir des années 1970. Plusieurs facteurs expliquent son adoption :

  • La pression à publier des résultats positifs
  • Le manque de puissance statistique de nombreuses études
  • Une interprétation erronée de la valeur p comme mesure continue de l’évidence

Prévalence et évolution du signalement des valeurs p marginales

Plusieurs études se sont penchées sur la fréquence d’utilisation des valeurs p marginalement significatives dans la littérature psychologique. Les résultats montrent une pratique répandue mais qui tend à diminuer ces dernières années.

Étude d’Olsson-Collentine et al. (2019)

Une étude majeure publiée en 2019 dans Psychological Science par Olsson-Collentine et ses collègues a analysé l’évolution de cette pratique sur 30 ans dans les revues de l’American Psychological Association.

Méthodologie :

  • Analyse de 44 200 articles publiés entre 1985 et 2016
  • Extraction automatisée de 42 504 valeurs p entre 0,05 et 0,10
  • Recherche des termes « margin* » et « approach* » à proximité des valeurs p

Principaux résultats :

Indicateur Résultat
Pourcentage moyen de valeurs p marginales signalées 39,6%
Discipline avec le plus fort taux Psychologie organisationnelle (45,4%)
Discipline avec le plus faible taux Psychologie clinique (30,1%)
Évolution globale 1985-2016 Tendance à la baisse

Comparaison avec l’étude de Pritschet et al. (2016)

Une étude antérieure de Pritschet et al. en 2016 avait suggéré une augmentation de l’utilisation des valeurs p marginales au fil du temps. Cependant, l’analyse plus fine d’Olsson-Collentine et al. a montré que cette augmentation apparente était due à un biais méthodologique :

  • Augmentation du nombre total de valeurs p rapportées par article
  • Analyse au niveau des articles et non des valeurs p individuelles

Une fois ces facteurs pris en compte, la tendance s’est avérée être à la baisse dans la plupart des disciplines psychologiques.

Variations entre disciplines

L’étude d’Olsson-Collentine et al. a mis en évidence des différences notables entre les sous-disciplines de la psychologie :

Discipline Pourcentage de valeurs p marginales signalées Tendance 1985-2016
Psychologie organisationnelle 45,4% Stable (b = -0,09)
Psychologie sociale 44,5% Stable (b = -0,02)
Psychologie expérimentale 40,7% Forte baisse (b = -0,60)
Psychologie cognitive 39,5% Forte baisse (b = -0,68)
Psychologie du développement 37,7% Légère baisse (b = -0,12)
Psychologie de l’éducation 34,7% Baisse modérée (b = -0,35)
Psychologie médico-légale 33,9% Forte baisse (b = -0,92)
Psychologie de la santé 31,6% Baisse modérée (b = -0,27)
Psychologie clinique 30,1% Baisse modérée (b = -0,29)

Ces variations peuvent s’expliquer par plusieurs facteurs :

  • Différences de culture méthodologique entre disciplines
  • Niveaux variables de pression à publier des résultats positifs
  • Adoption plus ou moins rapide des nouvelles recommandations statistiques

Problèmes liés à l’utilisation des valeurs p marginalement significatives

Bien que largement répandue, la pratique du signalement des valeurs p marginales pose plusieurs problèmes méthodologiques et épistémologiques sérieux.

Interprétation erronée de la valeur p

L’un des principaux problèmes est que cette pratique repose sur une interprétation erronée de la nature même de la valeur p :

  • La valeur p n’est pas une mesure continue de l’évidence en faveur de l’hypothèse alternative
  • Elle ne représente pas la probabilité que l’hypothèse nulle soit vraie
  • Un seuil de signification est par nature arbitraire et ne devrait pas être « assoupli » a posteriori

Considérer une valeur p de 0,07 comme « presque significative » n’a pas plus de sens statistique que de considérer une valeur de 0,93 comme « presque non-significative ».

Augmentation du risque d’erreur de type I

L’utilisation des valeurs p marginales augmente mécaniquement le risque d’erreur de type I, c’est-à-dire de conclure à tort à l’existence d’un effet :

  • Le seuil conventionnel de 0,05 correspond déjà à un risque d’erreur de 5%
  • Élargir ce seuil à 0,10 double ce risque à 10%

Cette inflation du risque d’erreur est particulièrement problématique dans un contexte où la reproductibilité des résultats en psychologie est déjà remise en question.

Biais de publication et « p-hacking »

La possibilité de signaler des résultats marginalement significatifs peut encourager certaines pratiques discutables :

  • Biais de publication : tendance à ne publier que les résultats positifs ou « presque » positifs
  • « P-hacking » : manipulation des analyses pour obtenir une valeur p juste en-dessous du seuil de 0,10
  • HARKing (Hypothesizing After Results are Known) : formulation d’hypothèses a posteriori pour justifier des résultats marginaux

Ces pratiques contribuent à polluer la littérature scientifique avec des résultats peu fiables et difficilement reproductibles.

Confusion entre signification statistique et importance pratique

L’accent mis sur la signification statistique, même « marginale », détourne l’attention de considérations plus importantes :

  • La taille de l’effet observé
  • La précision de l’estimation (intervalles de confiance)
  • La signification pratique ou clinique des résultats

Un résultat peut être statistiquement significatif sans avoir d’importance réelle, et inversement.

Arguments en faveur de l’utilisation des valeurs p marginales

Malgré les critiques, certains chercheurs continuent de défendre l’utilité des valeurs p marginalement significatives dans certains contextes.

Nuance dans l’interprétation des résultats

Les partisans de cette approche arguent qu’elle permet une interprétation plus nuancée des résultats, notamment :

  • Pour les études exploratoires où l’on cherche des pistes de recherche
  • Dans les domaines où les effets sont généralement faibles et difficiles à détecter
  • Pour éviter de rejeter trop rapidement des hypothèses potentiellement intéressantes

Prise en compte de la puissance statistique

L’argument de la puissance statistique est souvent avancé :

  • De nombreuses études en psychologie manquent de puissance statistique
  • Un résultat marginalement significatif pourrait devenir pleinement significatif avec un échantillon plus large
  • Ignorer ces résultats reviendrait à augmenter le risque d’erreur de type II (faux négatifs)

Flexibilité dans la prise de décision

Certains chercheurs considèrent que la flexibilité dans l’interprétation des valeurs p permet :

  • Une approche plus pragmatique de l’analyse statistique
  • La possibilité d’adapter le seuil de signification au contexte de l’étude
  • Une transition progressive vers des méthodes d’inférence plus sophistiquées

Alternatives et recommandations

Face aux problèmes posés par l’utilisation des valeurs p marginales, plusieurs alternatives et recommandations ont été proposées.

Rapporter les valeurs p exactes

Une première recommandation simple est de toujours rapporter les valeurs p exactes plutôt que de les catégoriser :

  • Permet au lecteur de juger par lui-même de la force de l’évidence
  • Évite la dichotomie artificielle entre « significatif » et « non significatif »
  • Facilite les méta-analyses ultérieures

Mettre l’accent sur les tailles d’effet et les intervalles de confiance

De nombreux statisticiens recommandent de se concentrer davantage sur :

  • Les tailles d’effet standardisées (d de Cohen, r de Pearson, etc.)
  • Les intervalles de confiance autour de ces estimations

Ces indicateurs fournissent une information plus riche et plus pertinente que la simple valeur p.

Utiliser des méthodes bayésiennes

L’inférence bayésienne offre une alternative intéressante à l’approche fréquentiste classique :

  • Calcul de facteurs de Bayes plutôt que de valeurs p
  • Estimation de la probabilité des hypothèses étant donné les données
  • Possibilité d’intégrer des connaissances préalables (priors)