Quand la recherche joue avec les seuils statistiques

Dans les laboratoires de psychologie, une expression revient régulièrement pour qualifier certains résultats : “marginalement significatif”. Derrière ce terme se cache une pratique controversée qui consiste à présenter comme presque convaincants des résultats dont la valeur statistique se situe entre 0,05 et 0,10, juste au-delà du seuil traditionnel de signification. Une analyse portant sur 44 200 articles publiés entre 1985 et 2016 dans les revues de l’American Psychological Association révèle que 39,6% des valeurs p comprises dans cette zone grise ont été signalées comme marginalement significatives.

Un seuil arbitraire devenu norme

La valeur p représente la probabilité d’obtenir un résultat au moins aussi extrême que celui observé si aucun effet réel n’existe. Le seuil de 0,05 s’est imposé comme convention dans la recherche scientifique, créant une frontière nette entre ce qui est considéré comme statistiquement probant et ce qui ne l’est pas. Pourtant, cette limite n’a rien de magique. Elle découle d’une décision pragmatique prise il y a près d’un siècle par le statisticien Ronald Fisher.

Lorsqu’un chercheur obtient une valeur p de 0,06 ou 0,08, la tentation est grande de ne pas l’abandonner complètement. Les termes “approchant la signification” ou “tendance vers la signification” permettent alors de présenter ces résultats sous un jour plus favorable. Cette pratique s’est particulièrement répandue à partir des années 1970 en psychologie, alimentée par la pression à publier des résultats positifs et le manque de puissance statistique de nombreuses études.

Des disparités entre disciplines

L’étude menée par Olsson-Collentine et ses collègues, publiée dans Psychological Science, a passé au crible 42 504 valeurs p situées entre 0,05 et 0,10. Les chercheurs ont utilisé des algorithmes pour détecter automatiquement les expressions “margin*” et “approach*” à proximité de ces valeurs dans les articles scientifiques. Les résultats montrent des variations notables selon les sous-disciplines.

La psychologie organisationnelle arrive en tête avec 45,4% de valeurs p marginales signalées comme telles, suivie de près par la psychologie sociale à 44,5%. À l’opposé, la psychologie clinique affiche le taux le plus bas avec 30,1%. Ces écarts reflètent des cultures méthodologiques différentes et des niveaux variables de pression à publier des résultats positifs. La psychologie cognitive et la psychologie expérimentale ont montré les baisses les plus marquées de cette pratique entre 1985 et 2016, avec des coefficients de régression de -0,68 et -0,60 respectivement.

Une tendance globalement à la baisse

Contrairement à ce que suggérait une étude antérieure de Pritschet publiée en 2016, l’analyse fine montre une diminution progressive de l’utilisation des valeurs p marginales. Le paradoxe apparent s’explique par une augmentation du nombre total de valeurs p rapportées par article. Lorsque l’analyse se fait au niveau des valeurs p individuelles plutôt qu’au niveau des articles, la tendance s’inverse et révèle une conscience méthodologique accrue dans la plupart des branches de la psychologie.

Les risques d’une tolérance élargie

Accepter comme presque valides des résultats dont la valeur p dépasse 0,05 double mécaniquement le risque d’erreur de type I, passant de 5% à 10%. Autrement dit, la probabilité de conclure à tort à l’existence d’un effet augmente de façon substantielle. Cette inflation du taux d’erreur pose problème dans un contexte où la psychologie fait face à une crise de réplication majeure depuis le début des années 2010.

Le Center for Open Science a coordonné un projet ambitieux visant à répliquer 100 études publiées dans des revues prestigieuses de psychologie. Seuls 36% des résultats originaux ont pu être répliqués avec succès. Cette difficulté à reproduire les résultats initiaux interroge directement les pratiques méthodologiques, dont l’assouplissement des seuils de signification.

Le p-hacking et ses dérivés

La possibilité de qualifier un résultat de marginalement significatif ouvre la porte à des pratiques discutables. Le p-hacking désigne la manipulation de l’analyse statistique pour obtenir une valeur p favorable. Cela peut impliquer l’exclusion sélective de certains participants, la transformation de variables, le choix post-hoc des covariables d’ajustement, ou encore l’arrêt de la collecte de données dès qu’un seuil acceptable est atteint.

Une expérience révélatrice a confié le même jeu de données à plusieurs équipes scientifiques ayant des conceptions théoriques opposées. Les résultats obtenus se sont avérés non seulement différents, mais parfois contradictoires. Ce phénomène, baptisé “vibration des effets”, illustre la malléabilité des analyses statistiques lorsque le chercheur dispose d’une flexibilité excessive dans ses choix méthodologiques.

Arguments des défenseurs

Certains chercheurs continuent de plaider pour une interprétation nuancée des valeurs p. Leur argument principal repose sur la reconnaissance que la science ne progresse pas uniquement par des résultats tranchés. Les études exploratoires, qui visent à identifier des pistes de recherche plutôt qu’à confirmer des hypothèses établies, bénéficieraient d’une approche moins rigide.

La puissance statistique insuffisante de nombreuses études constitue un autre argument. Lorsqu’un échantillon reste trop petit pour détecter des effets réels mais modestes, un résultat marginalement significatif pourrait indiquer une piste méritant d’être explorée avec des moyens plus conséquents. Rejeter systématiquement ces résultats reviendrait à augmenter le risque d’erreur de type II, c’est-à-dire de passer à côté d’effets authentiques.

Vers d’autres approches

Face aux limites de la dichotomie significatif/non-significatif, plusieurs alternatives gagnent du terrain. La première recommandation consiste à toujours rapporter les valeurs p exactes plutôt que de les catégoriser. Cette transparence permet au lecteur de se forger sa propre opinion sur la force de l’évidence et facilite les méta-analyses ultérieures.

L’accent se déplace progressivement vers les tailles d’effet et les intervalles de confiance. Le d de Cohen, le r de Pearson ou l’êta carré fournissent une information sur l’ampleur du phénomène observé, bien plus pertinente que la simple probabilité qu’il soit dû au hasard. Un résultat peut être statistiquement significatif avec un effet tellement faible qu’il n’a aucune importance pratique, et inversement.

L’approche bayésienne comme alternative

L’inférence bayésienne propose un changement de paradigme radical. Au lieu de calculer la probabilité des données sachant que l’hypothèse nulle est vraie, elle estime la probabilité de l’hypothèse étant donné les données observées. Les facteurs de Bayes remplacent les valeurs p et permettent de quantifier le soutien relatif apporté à différentes hypothèses.

Cette méthode autorise également l’intégration de connaissances préalables à travers les distributions a priori. Un résultat concordant avec un corpus théorique solide recevra plus de crédit qu’un résultat isolé, même si les deux présentent la même valeur statistique brute. Plusieurs logiciels comme JASP rendent désormais l’analyse bayésienne accessible aux chercheurs sans formation mathématique approfondie.

Réformes méthodologiques en cours

La communauté scientifique a lancé plusieurs initiatives pour améliorer la robustesse de la recherche. Le préenregistrement des études oblige les chercheurs à déclarer leurs hypothèses et leur plan d’analyse avant de collecter les données. Cette pratique limite considérablement les possibilités de p-hacking en figeant les décisions méthodologiques.

Les revues scientifiques adoptent progressivement des politiques éditoriales plus strictes. Certaines acceptent désormais les articles sur la base du protocole seul, indépendamment des résultats obtenus. Ce format, appelé Registered Report, combat le biais de publication favorisant les résultats positifs. Plus de 300 revues proposent aujourd’hui cette option, principalement dans les domaines de la psychologie et des neurosciences.

Sources

• Olsson-Collentine A, van Assen MA, Hartgerink CH. The Prevalence of Marginally Significant Results in Psychology Over Time. Psychological Science, 2019

• Pritschet L, Powell D, Horne Z. Marginally Significant Effects as Evidence for Hypotheses: Changing Attitudes Over Four Decades. Psychological Science, 2016

• Center for Open Science. Estimating the reproducibility of psychological science. Science, 2015

• American Statistical Association. Statement on Statistical Significance and P-Values, 2016

• Redaction Médicale – Les résultats ‘marginally significant’ polluent la littérature, 2019

• SFPT – P hacking, data dredging : Livre Blanc Méthodologique

• DataCamp – P-Hacking : Comment (ne pas) manipuler la valeur P

Table des matières afficher

Quand la recherche joue avec les seuils statistiques

Un seuil arbitraire devenu norme

Des disparités entre disciplines

Une tendance globalement à la baisse

Les risques d’une tolérance élargie

Le p-hacking et ses dérivés

Arguments des défenseurs

Vers d’autres approches

L’approche bayésienne comme alternative

Réformes méthodologiques en cours

La science du bonheur : ce que la recherche dit vraiment

Anamnèse en psychothérapie : transformer une histoire de vie en levier de changement

Anamnèse en psychologie : transformer un simple “recueil d’infos” en moment thérapeutique puissant

Pleine conscience et bien-être chez les seniors : guide complet pour un vieillissement serein

La pleine conscience pour les professionnels de santé et la prévention du burnout

Pleine conscience et créativité : le lien surprenant validé par la science

La pleine conscience pour les adolescents : comment cette pratique améliore la régulation émotionnelle

Programmes de Pleine Conscience en Entreprise : Calcul du Retour sur Investissement

Pleine conscience et qualité du sommeil : comment la méditation transforme vos nuits

Les écoles mindful : comment la pleine conscience transforme l’éducation

Les applications de pleine conscience fonctionnent-elles vraiment ? La science répond

Manger en pleine conscience : guide complet pour débuter

Pleine conscience vs méditation : les différences clés à connaître

Programme MBSR : La réduction du stress par la pleine conscience

Immigration et résilience : comment les migrants surpassent les adversités par la psychologie positive

Quand la recherche joue avec les seuils statistiques

Un seuil arbitraire devenu norme

Des disparités entre disciplines

Une tendance globalement à la baisse

Les risques d’une tolérance élargie

Le p-hacking et ses dérivés

Arguments des défenseurs

Vers d’autres approches

L’approche bayésienne comme alternative

Réformes méthodologiques en cours

Publications similaires :

Connexes Postes