Dans les laboratoires de psychologie, une expression revient régulièrement pour qualifier certains résultats : “marginalement significatif”. Derrière ce terme se cache une pratique controversée qui consiste à présenter comme presque convaincants des résultats dont la valeur statistique se situe entre 0,05 et 0,10, juste au-delà du seuil traditionnel de signification. Une analyse portant sur 44 200 articles publiés entre 1985 et 2016 dans les revues de l’American Psychological Association révèle que 39,6% des valeurs p comprises dans cette zone grise ont été signalées comme marginalement significatives.
Un seuil arbitraire devenu norme
La valeur p représente la probabilité d’obtenir un résultat au moins aussi extrême que celui observé si aucun effet réel n’existe. Le seuil de 0,05 s’est imposé comme convention dans la recherche scientifique, créant une frontière nette entre ce qui est considéré comme statistiquement probant et ce qui ne l’est pas. Pourtant, cette limite n’a rien de magique. Elle découle d’une décision pragmatique prise il y a près d’un siècle par le statisticien Ronald Fisher.
Lorsqu’un chercheur obtient une valeur p de 0,06 ou 0,08, la tentation est grande de ne pas l’abandonner complètement. Les termes “approchant la signification” ou “tendance vers la signification” permettent alors de présenter ces résultats sous un jour plus favorable. Cette pratique s’est particulièrement répandue à partir des années 1970 en psychologie, alimentée par la pression à publier des résultats positifs et le manque de puissance statistique de nombreuses études.
Des disparités entre disciplines
L’étude menée par Olsson-Collentine et ses collègues, publiée dans Psychological Science, a passé au crible 42 504 valeurs p situées entre 0,05 et 0,10. Les chercheurs ont utilisé des algorithmes pour détecter automatiquement les expressions “margin*” et “approach*” à proximité de ces valeurs dans les articles scientifiques. Les résultats montrent des variations notables selon les sous-disciplines.
La psychologie organisationnelle arrive en tête avec 45,4% de valeurs p marginales signalées comme telles, suivie de près par la psychologie sociale à 44,5%. À l’opposé, la psychologie clinique affiche le taux le plus bas avec 30,1%. Ces écarts reflètent des cultures méthodologiques différentes et des niveaux variables de pression à publier des résultats positifs. La psychologie cognitive et la psychologie expérimentale ont montré les baisses les plus marquées de cette pratique entre 1985 et 2016, avec des coefficients de régression de -0,68 et -0,60 respectivement.
Une tendance globalement à la baisse
Contrairement à ce que suggérait une étude antérieure de Pritschet publiée en 2016, l’analyse fine montre une diminution progressive de l’utilisation des valeurs p marginales. Le paradoxe apparent s’explique par une augmentation du nombre total de valeurs p rapportées par article. Lorsque l’analyse se fait au niveau des valeurs p individuelles plutôt qu’au niveau des articles, la tendance s’inverse et révèle une conscience méthodologique accrue dans la plupart des branches de la psychologie.
Les risques d’une tolérance élargie
Accepter comme presque valides des résultats dont la valeur p dépasse 0,05 double mécaniquement le risque d’erreur de type I, passant de 5% à 10%. Autrement dit, la probabilité de conclure à tort à l’existence d’un effet augmente de façon substantielle. Cette inflation du taux d’erreur pose problème dans un contexte où la psychologie fait face à une crise de réplication majeure depuis le début des années 2010.
Le Center for Open Science a coordonné un projet ambitieux visant à répliquer 100 études publiées dans des revues prestigieuses de psychologie. Seuls 36% des résultats originaux ont pu être répliqués avec succès. Cette difficulté à reproduire les résultats initiaux interroge directement les pratiques méthodologiques, dont l’assouplissement des seuils de signification.
Le p-hacking et ses dérivés
La possibilité de qualifier un résultat de marginalement significatif ouvre la porte à des pratiques discutables. Le p-hacking désigne la manipulation de l’analyse statistique pour obtenir une valeur p favorable. Cela peut impliquer l’exclusion sélective de certains participants, la transformation de variables, le choix post-hoc des covariables d’ajustement, ou encore l’arrêt de la collecte de données dès qu’un seuil acceptable est atteint.
Une expérience révélatrice a confié le même jeu de données à plusieurs équipes scientifiques ayant des conceptions théoriques opposées. Les résultats obtenus se sont avérés non seulement différents, mais parfois contradictoires. Ce phénomène, baptisé “vibration des effets”, illustre la malléabilité des analyses statistiques lorsque le chercheur dispose d’une flexibilité excessive dans ses choix méthodologiques.
Arguments des défenseurs
Certains chercheurs continuent de plaider pour une interprétation nuancée des valeurs p. Leur argument principal repose sur la reconnaissance que la science ne progresse pas uniquement par des résultats tranchés. Les études exploratoires, qui visent à identifier des pistes de recherche plutôt qu’à confirmer des hypothèses établies, bénéficieraient d’une approche moins rigide.
La puissance statistique insuffisante de nombreuses études constitue un autre argument. Lorsqu’un échantillon reste trop petit pour détecter des effets réels mais modestes, un résultat marginalement significatif pourrait indiquer une piste méritant d’être explorée avec des moyens plus conséquents. Rejeter systématiquement ces résultats reviendrait à augmenter le risque d’erreur de type II, c’est-à-dire de passer à côté d’effets authentiques.
Vers d’autres approches
Face aux limites de la dichotomie significatif/non-significatif, plusieurs alternatives gagnent du terrain. La première recommandation consiste à toujours rapporter les valeurs p exactes plutôt que de les catégoriser. Cette transparence permet au lecteur de se forger sa propre opinion sur la force de l’évidence et facilite les méta-analyses ultérieures.
L’accent se déplace progressivement vers les tailles d’effet et les intervalles de confiance. Le d de Cohen, le r de Pearson ou l’êta carré fournissent une information sur l’ampleur du phénomène observé, bien plus pertinente que la simple probabilité qu’il soit dû au hasard. Un résultat peut être statistiquement significatif avec un effet tellement faible qu’il n’a aucune importance pratique, et inversement.
L’approche bayésienne comme alternative
L’inférence bayésienne propose un changement de paradigme radical. Au lieu de calculer la probabilité des données sachant que l’hypothèse nulle est vraie, elle estime la probabilité de l’hypothèse étant donné les données observées. Les facteurs de Bayes remplacent les valeurs p et permettent de quantifier le soutien relatif apporté à différentes hypothèses.
Cette méthode autorise également l’intégration de connaissances préalables à travers les distributions a priori. Un résultat concordant avec un corpus théorique solide recevra plus de crédit qu’un résultat isolé, même si les deux présentent la même valeur statistique brute. Plusieurs logiciels comme JASP rendent désormais l’analyse bayésienne accessible aux chercheurs sans formation mathématique approfondie.
Réformes méthodologiques en cours
La communauté scientifique a lancé plusieurs initiatives pour améliorer la robustesse de la recherche. Le préenregistrement des études oblige les chercheurs à déclarer leurs hypothèses et leur plan d’analyse avant de collecter les données. Cette pratique limite considérablement les possibilités de p-hacking en figeant les décisions méthodologiques.
Les revues scientifiques adoptent progressivement des politiques éditoriales plus strictes. Certaines acceptent désormais les articles sur la base du protocole seul, indépendamment des résultats obtenus. Ce format, appelé Registered Report, combat le biais de publication favorisant les résultats positifs. Plus de 300 revues proposent aujourd’hui cette option, principalement dans les domaines de la psychologie et des neurosciences.
