de nombreux chercheurs ont critiqué les tests de signification d’hypothèses nulles, bien que beaucoup l’aient également défendu (voir Balluerka et al., 2005, pour un examen). Parfois, il est recommandé de réduire le niveau alpha à une valeur plus conservatrice, afin de réduire le taux d’erreur de type I. Par exemple, Melton (1962), rédacteur en chef du Journal of Experimental Social Psychology de 1950 à 1962, a favorisé un niveau alpha de 0,01 par rapport au niveau alpha typique de 0,05. Plus récemment, Benjamin et coll., (2018) A recommandé de passer à 0,005—conformément au commentaire de Melton selon lequel même le niveau de 0,01 pourrait ne pas être « suffisamment impressionnant” pour justifier une publication (p. 554). En outre, Benjamin et coll. (2018) ont stipulé que le niveau alpha 0.005 devrait être pour les nouveaux résultats, mais ont été vagues sur ce qu’il faut faire avec les résultats qui ne sont pas nouveaux. Bien que N’approuvant pas nécessairement le test de signification comme procédure statistique inférentielle préférée (beaucoup d’auteurs préfèrent apparemment les procédures bayésiennes), Benjamin et al. (2018) a fait valoir que l’utilisation d’un 0.,005 cutoff corrigerait une grande partie de ce qui ne va pas avec les tests de signification. Malheureusement, comme nous allons le démontrer, les problèmes liés aux tests de signification ne peuvent pas être atténués de manière importante simplement en ayant un critère de rejet plus conservateur, et certains problèmes sont exacerbés par l’adoption d’un critère plus conservateur.
Nous commençons avec quelques réclamations de la part de Benjamin et coll. (2018). Par exemple, ils ont écrit « changing changer le seuil de valeur P est simple, s’aligne sur la formation entreprise par de nombreux chercheurs et pourrait rapidement obtenir une large acceptation., »Si les tests de signification – à n’importe quel seuil de valeur p-sont aussi imparfaits que nous le maintiendrons (Voir Aussi Amrhein et al., 2017; Groenland, 2017), ces raisons sont clairement insuffisantes pour justifier une simple modification du seuil. Considérons une autre affirmation: « le nouveau seuil de signification aidera les chercheurs et les lecteurs à comprendre et à communiquer les preuves plus précisément. »Mais si les chercheurs ont des problèmes de compréhension et de communication avec un seuil de 0,05, on ne sait pas comment l’utilisation d’un seuil de 0,005 éliminera ces problèmes., Et considérons une autre affirmation: « les auteurs et les lecteurs peuvent eux-mêmes prendre l’initiative en décrivant et en interprétant les résultats de manière plus appropriée à la lumière de la nouvelle définition proposée de la signification statistique. »Encore une fois, on ne sait pas comment l’adoption d’un seuil de 0,005 permettra aux auteurs et aux lecteurs de prendre l’initiative en ce qui concerne une meilleure interprétation des données. Ainsi, même avant une discussion de nos principaux arguments, il y a des raisons pour que le lecteur se méfie des affirmations hâtives sans support empirique.,
compte tenu de ce qui précède, considérez qu’un problème fondamental avec les tests de signification est que le but est de rejeter une hypothèse nulle. Cet objectif semble exiger – si L’on est bayésien—que la probabilité postérieure de l’hypothèse nulle soit faible compte tenu du résultat obtenu. Mais la valeur p que l’on obtient est la probabilité de la découverte, et de découvertes plus extrêmes, étant donné que l’hypothèse nulle et toutes les autres hypothèses sur le modèle étaient correctes (Greenland et al.,, 2016; Groenland, 2017), et il faudrait faire une inférence inverse invalide pour tirer une conclusion sur la probabilité de l’hypothèse nulle compte tenu de la découverte. Et si l’on est fréquentiste, il n’y a aucun moyen de traverser l’écart logique entre la probabilité de la conclusion et des résultats plus extrêmes, compte tenu de l’hypothèse nulle, et une décision sur l’acceptation ou le rejet de l’hypothèse nulle (Briggs, 2016; Trafimow, 2017). Nous acceptons que, par logique fréquentiste, la probabilité d’une erreur de Type I est vraiment plus faible si nous utilisons une coupure de 0,005 pour p qu’une coupure de 0,05, toutes les autres étant égales par ailleurs., Nous acceptons également L’argument bayésien de Benjamin et al. (2018) que l’hypothèse nulle est moins probable si p = 0,005 que si p = 0,05, toutes choses étant égales par ailleurs. Enfin, nous reconnaissons que Benjamin et coll. (2018) a fourni un service à la science en stimulant davantage le débat sur les tests de signification. Mais il y a des questions importantes Benjamin et al. (2018) semblent ne pas avoir pris en compte, discutés dans les sections suivantes.,
régression et réplicabilité
Trafimow et Earp (2017) ont argumenté contre la notion générale de fixer un niveau alpha pour prendre des décisions de rejeter ou de ne pas rejeter les hypothèses nulles, et les arguments conservent leur force même si le niveau alpha est réduit à 0,005. À certains égards, la réduction aggrave les choses. Un problème est que les valeurs p ont une variabilité d’échantillonnage, tout comme d’autres statistiques (Cumming, 2012)., Mais la valeur p est spéciale en ce sens qu’elle est conçue pour ressembler à du bruit pur si l’hypothèse nulle et toutes les autres hypothèses du modèle sont correctes, car dans ce cas, la valeur p est uniformément répartie sur (Groenland, 2018). Selon une hypothèse alternative, sa distribution est décalée vers le bas, la probabilité que p tombe en dessous de la coupure choisie étant la puissance du test. Parce que la puissance réelle des études typiques n’est pas très élevée, lorsque l’alternative est correcte, ce sera en grande partie une question de chance si la valeur p échantillonnée est inférieure au niveau alpha choisi., Lorsque, comme c’est souvent le cas, la puissance est bien inférieure à 50% (Smaldino et McElreath, 2016), il est peu probable que le chercheur rééchantillonne une valeur p inférieure à un seuil de signification lors de la réplication, car il peut y avoir beaucoup plus de valeurs p supérieures qu’inférieures au seuil dans la distribution de la valeur p (Goodman, 1992; Senn, 2002; , 2015). Ce problème s’aggrave à mesure que la coupure est abaissée, car pour une taille d’échantillon constante, la puissance diminue avec la coupure.,
même si l’on n’a pas utilisé de seuil, le phénomène de régression à la moyenne suggère que la valeur p obtenue dans une expérience de réplication est susceptible de régresser à quelle que soit la valeur P Moyenne si de nombreuses réplications étaient effectuées. Combien de régression devrait se produire? Lorsque l’hypothèse nulle est incorrecte, cela dépend de la variable des estimations ponctuelles et donc des valeurs p.
En outre, la variabilité des valeurs de p entraîne une mauvaise corrélation entre les réplications., Sur la base des données mises en ligne par L’Open Science Collaboration (2015; https://osf.io/fgjvw), Trafimow et de Boer (soumis) ont calculé une corrélation de seulement 0,004 entre les valeurs de p obtenues dans la cohorte originale d’études avec des valeurs de p obtenues dans la cohorte de réplication, par rapport à la corrélation attendue de zéro si toutes les hypothèses nulles et les modèles utilisés pour calculer les valeurs de p étaient corrects (et donc toutes les valeurs de p étaient uniformément distribuées).,
Il y a plusieurs raisons possibles à la faible corrélation, y compris que la plupart des associations étudiées peuvent avoir en fait été presque nulles, de sorte que les valeurs p sont restées principalement fonction du bruit et donc une corrélation proche de zéro devrait être attendue., Mais même si la plupart des associations étaient loin d’être nulles, déplaçant ainsi les valeurs de p vers le bas vers zéro et créant une corrélation positive sur la réplication, cette corrélation restera faible en raison non seulement de la grande erreur aléatoire dans les valeurs de p, mais aussi en raison de la méthodologie de réplication imparfaite et de la relation non linéaire entre les valeurs de p et les tailles d’effet (« corriger” la corrélation pour l’atténuation due à la restriction de l’intervalle, dans la cohorte originale des études, augmente la corrélation à 0,01, qui est encore faible)., De plus, si la plupart des hypothèses nulles testées étaient fausses, la faible reproductibilité de la valeur p comme en témoigne la collaboration Open Science pourrait être attribuée, en partie, au biais de publication causé par un critère de publication basé sur les valeurs p (Locascio, 2017a; Amrhein et Greenland, 2018)., Mais si l’on souhaite faire une telle attribution, bien qu’elle puisse justifier l’utilisation de valeurs p dans un univers scientifique hypothétique où les valeurs P de fausses valeurs nulles sont plus réplicables en raison d’un manque de biais de publication, l’attribution fournit une autre raison importante d’éviter toute sorte de critères de publication basés sur des valeurs,
ainsi, la valeur p obtenue dans une étude originale a peu à voir avec la valeur p obtenue dans une expérience de réplication (ce qui est exactement ce que la théorie réelle des valeurs p dit devrait être le cas). La meilleure prédiction serait une valeur p pour l’expérience de réplication étant beaucoup plus proche de la moyenne de la distribution de la valeur p que de la valeur p obtenue dans l’expérience originale. Dans n’importe quelle hypothèse, plus la valeur p publiée dans l’expérience originale est faible (par exemple, 0,001 plutôt que 0.,01), plus il est probable qu’il représente une plus grande distance de la valeur p par rapport à la moyenne de la valeur p, ce qui implique une régression accrue par rapport à la moyenne.
tout cela signifie que les décisions binaires, basées sur des valeurs p, sur le rejet ou l’acceptation d’hypothèses, sur la force de la preuve (Fisher, 1925, 1973), ou sur la gravité du test (Mayo, 1996), seront des décisions peu fiables. Cela pourrait être considéré comme une bonne raison de ne pas utiliser du tout les valeurs p, ou du moins de ne pas les utiliser pour prendre des décisions sur la pertinence ou non des hypothèses scientifiques (Amrhein et al., 2018).,
taux d’erreur et niveaux Alpha variables
Un autre inconvénient de l’utilisation de n’importe quel niveau alpha défini pour la publication est que l’importance relative des erreurs de Type I et de Type II peut différer selon les études au sein ou entre les domaines et les chercheurs (Trafimow et Earp, 2017). Définir un niveau général de 0,05 ou 0,005, ou toute autre chose, oblige les chercheurs à prétendre que l’importance relative des erreurs de Type I et de Type II est constante. Benjamin et coll. (2018) tentent de justifier leur recommandation de réduire à 0.,005 niveau en soulignant quelques domaines de la science qui utilisent des niveaux alpha très faibles, mais cette observation est tout aussi cohérente avec l’idée qu’un niveau général à travers la science n’est pas souhaitable. Et il y a de bonnes raisons pour lesquelles la variation entre les domaines et les sujets est à prévoir: une grande variété de facteurs peuvent influencer l’importance relative des erreurs de Type I et de Type II, rendant ainsi indésirable toute recommandation générale. Ces facteurs peuvent inclure la clarté de la théorie, les hypothèses auxiliaires, les préoccupations pratiques ou appliquées, ou la rigueur expérimentale., En effet, Miller et Ulrich (2016) ont montré comment ces facteurs et d’autres ont une incidence directe sur le résultat final de la recherche. Il existe une littérature impressionnante attestant des difficultés à établir une recommandation générale (p. ex., Buhl-Mortensen, 1996; Lemons et al., 1997; Citrons et Victor, 2008; Lieberman et Cunningham, 2009; Myhr, 2010; Riz et Trafimow, 2010; Mudge et coll., 2012; Lakens et coll., 2018).
Cependant, nous ne soutenons pas que chaque chercheur devrait établir son propre niveau alpha pour chaque étude, comme recommandé par Neyman et Pearson (1933) et Lakens et al., (2018), parce que cela a aussi des problèmes (Trafimow et Earp, 2017). Par exemple, avec des seuils variables, de nombreux anciens problèmes liés aux tests de signification restent non résolus, tels que les problèmes de régression vers la moyenne des valeurs p, l’inflation des tailles d’effet (la « malédiction du gagnant”, voir ci-dessous), le biais sélectif de déclaration et de publication, et l’inconvénient général de forcer les décisions trop rapidement Compte tenu de toute l’incertitude entourant l’inférence statistique (Groenland, 2017, 2018; Amrhein et al.,, 2018), nous doutons fortement que nous pourrions réussir à « contrôler” les taux d’erreur si seulement nous justifiions notre niveau alpha et d’autres décisions avant une étude, comme Lakens et al. (2018) semblent suggérer dans leur commentaire à Benjamin et al. (2018). Néanmoins, Lakens et coll. (2018) concluent que « le terme » statistiquement significatif » ne devrait plus être utilisée. »Nous sommes d’accord, mais nous pensons que le test de signification avec un alpha justifié est toujours un test de signification, que le terme « signification” soit utilisé ou non.,
étant donné que les niveaux Alpha généraux et variables sont tous deux problématiques, il est judicieux de ne pas redéfinir la signification statistique, mais de renoncer complètement aux tests de signification, comme l’ont suggéré McShane et al. (2018) et Amrhein et Groenland (2018), deux autres commentaires à Benjamin et al. (2018).
définition de la reproductibilité
encore un autre inconvénient concerne ce que Benjamin et al. (2018) a présenté comme le principal avantage de leur proposition, que les résultats publiés seront plus reproductibles en utilisant le niveau 0.005 que le niveau 0.05 alpha., Cela dépend de ce que l’on entend par « répliquer” (voir Lykken, 1968, pour certaines définitions). Si l’on insiste sur le même niveau alpha pour l’étude originale et l’étude de réplication, alors nous ne voyons aucune raison de croire qu’il y aura plus de réplications réussies en utilisant le niveau 0.005 qu’en utilisant le niveau 0.05. En fait, l’argument de régression statistique avancé précédemment suggère que le problème de régression est encore pire en utilisant 0,005 qu’en utilisant 0,05. Alternativement, comme Benjamin et al. (2018) semblent suggérer, que l’on pourrait utiliser 0,005 pour l’étude originale et 0,05 pour l’étude de la réplication., Dans ce cas, nous convenons que la combinaison de 0,005 et 0,05 créera moins de réplications infructueuses que la combinaison de 0,05 et 0,05 pour les études initiales et de réplication, respectivement. Cependant, cela a un prix élevé dans l’arbitraire. Supposons que les deux études viennent à p < 0,005 et p < 0,05, respectivement. Cela compterait comme une réplication réussie. En revanche, supposons que les deux études viennent à p < 0,05 et p < 0,005, respectivement., Seule la deuxième étude compterait, et la combinaison ne serait pas considérée comme indiquant une réplication réussie. Insister sur le fait que fixer un seuil de 0,005 rend la recherche plus reproductible exigerait beaucoup plus de spécificité quant à la façon de conceptualiser la reproductibilité.
de plus, nous ne considérons pas un seul succès ou Échec de réplication comme définitif. Si l’on souhaite faire un argument solide pour le succès ou l’échec de la réplication, plusieurs tentatives de réplication sont souhaitables. Comme en témoignent de récentes études de réplication réussies en psychologie cognitive(Zwaan et al.,, 2017) et les sciences sociales (Mullinix et al., 2015), la qualité de la théorie et la mesure dans laquelle les hypothèses du modèle sont respectées influenceront de manière importante la reproductibilité.
remise en question des hypothèses
la discussion jusqu’à présent est sous prétexte que les hypothèses sous-jacentes à l’interprétation des valeurs p sont vraies. Mais quelle est la probabilité? Berk et Freedman (2003) ont démontré avec force que les hypothèses d’échantillonnage aléatoire et indépendant d’une population sont rarement vraies., Les problèmes sont particulièrement saillants dans les sciences cliniques, où la fausseté des hypothèses, ainsi que les divergences entre la signification statistique et clinique, sont particulièrement évidentes et dramatiques (Bhardwaj et al., 2004; Ferrill et coll., 2010; Fethney, 2010; Page, 2014). Cependant, les tests statistiques ne testent pas seulement des hypothèses, mais d’innombrables hypothèses et l’ensemble de l’environnement dans lequel se déroule la recherche (Groenland, 2017, 2018; Amrhein et al., 2018)., Le problème des fausses hypothèses probables, combiné aux autres problèmes déjà discutés, rend encore plus dramatique la collecte illusoire de la vérité à partir des valeurs p ou de toute autre méthode statistique.
Taille de L’effet Population
poursuivons avec les questions de signification et de réplication, en revenant à la prétention que les hypothèses du modèle sont correctes, tout en gardant à l’esprit que cela est peu probable. Considérez que, dans l’état actuel des choses, en utilisant des tests de signification avec le 0.,05 critère, la taille de l’effet de population joue un rôle important à la fois dans l’obtention de la signification statistique (toutes choses étant égales par ailleurs, la taille de l’effet de l’échantillon sera plus grande si la taille de l’effet de population est plus grande) et dans l’obtention de la signification statistique deux fois pour une Le passage au seuil de 0,005 ne diminuerait pas l’importance de la taille de l’effet sur la population et augmenterait son importance à moins que la taille des échantillons n’augmente considérablement par rapport à celle utilisée actuellement. Et il y a de bonnes raisons de rejeter que la reproductibilité devrait dépendre de la taille de l’effet de population., Pour voir cela rapidement, considérons L’une des expériences scientifiques les plus importantes de tous les temps, par Michelson et Morley (1887). Ils ont utilisé leur interféromètre pour tester si l’univers est rempli d’un éther luminifère qui permet à la lumière de voyager vers la Terre à partir des étoiles. La taille de l’effet de leur échantillon était très petite, et les physiciens admettent que la taille de l’effet de population est nulle parce qu’il n’y a pas d’éther luminifère. En utilisant des tests traditionnels de signification avec un 0.05 ou 0.,005 cutoff, répliquer Michelson et Morley serait problématique (voir Sawilowsky, 2003, pour une discussion de cette expérience dans le contexte des tests d’hypothèses). Et pourtant, les physiciens considèrent l’expérience comme hautement reproductible (Voir Aussi Meehl, 1967). Toute proposition qui comporte des critères de rejet de la valeur p force la probabilité de réplication à être affectée par la taille de l’effet de population, et doit donc être rejetée si nous acceptons l’idée que la réplicabilité ne devrait pas dépendre de la taille de l’effet de population.
de plus, avec un niveau alpha de 0.,005, les grandes tailles d’effets seraient plus importantes pour la publication, et les chercheurs pourraient pencher beaucoup plus vers la recherche « évidente” que vers le test d’idées créatives où il y a plus de risque de petits effets et de valeurs p qui ne respectent pas la barre de 0.005. Très probablement, une raison pour laquelle les résultats nuls sont si difficiles à publier dans des sciences telles que la psychologie est parce que la tradition d’utiliser des seuils de valeur p est si enracinée. Il serait bénéfique de mettre fin à cette tradition.,
exactitude de la taille des effets publiés
Il est souhaitable que les faits publiés dans les littératures scientifiques reflètent fidèlement la réalité. Examinez à nouveau la question de la régression. Plus le niveau de critère pour la publication est rigoureux, plus il y a de distance entre une conclusion qui passe le critère à la moyenne, et donc il y a un effet de régression croissant. Même au 0.,05 niveau alpha, les chercheurs ont longtemps reconnu que les tailles d’effets publiées ne reflètent probablement pas la réalité, ou du moins pas la réalité qui serait vue s’il y avait de nombreuses réplications de chaque expérience et que toutes étaient publiées (voir Briggs, 2016; Grice, 2017; Hyman, 2017; Kline, 2017; Locascio,2017a, B; Marks, 2017 pour une discussion récente de ce problème). Sous des tailles d’échantillon raisonnables et des tailles d’effet de population raisonnables, ce sont les tailles d’effet d’échantillon anormalement grandes qui donnent des valeurs de p qui atteignent le niveau 0,05 ou 0.,Niveau 005, ou tout autre niveau alpha, comme il est évident du point de vue de la régression statistique. Et avec des tailles d’échantillon généralement faibles, les effets statistiquement significatifs sont souvent des surestimations de la taille des effets de la population, ce qui est appelé « inflation de la taille de l’effet”, « inflation de la vérité” ou « malédiction du gagnant” (Amrhein et al., 2017). La surestimation de la taille de l’effet a été démontrée empiriquement dans L’Open Science Collaboration (2015), où la taille moyenne de l’effet dans la cohorte de réplication des études a été considérablement réduite par rapport à la taille moyenne de l’effet dans la cohorte originale (de 0,403 à 0,197)., Le passage à un seuil plus strict de 0,005 entraînerait une surestimation encore pire de la taille de l’effet (Button et al., 2013; Amrhein et Groenland, 2018). L’importance d’avoir des tailles d’effet publiées qui reflètent fidèlement les tailles d’effet de la population contredit l’utilisation de critères de seuil et de tests de signification, à n’importe quel niveau alpha.
Taille de l’échantillon et solutions de rechange aux tests de Signification
Nous soulignons que la réplication dépend en grande partie de la taille de l’échantillon, mais certains facteurs empêchent les chercheurs d’utiliser les grandes tailles d’échantillon nécessaires à une bonne précision et reproductibilité de l’échantillonnage., En plus des coûts évidents liés à l’obtention de grandes tailles d’échantillon, il peut y avoir une sous-appréciation de l’importance de la taille de l’échantillon (Vankov et coll., 2014), de l’importance des incitations à favoriser la nouveauté plutôt que la reproductibilité (Nosek et al., 2012) et d’une idée fausse répandue selon laquelle le complément des valeurs p mesure la reproductibilité (Cohen, 1994; Thompson, 1996; Greenland et al., 2016). L’accent sur la taille de l’échantillon suggère une alternative aux tests de signification., Trafimow (2017; Trafimow et MacDonald, 2017) a suggéré une procédure comme suit: la chercheuse précise à quel point elle souhaite que les statistiques de l’échantillon soient proches de leurs paramètres de population correspondants, et la probabilité souhaitée d’être aussi proche. Les équations de Trafimow peuvent être utilisées pour obtenir la taille d’échantillon nécessaire pour répondre à cette spécification de proximité., Le chercheur obtient ensuite la taille d’échantillon nécessaire, calcule les statistiques descriptives et les prend comme estimations précises des paramètres de la population (provisoirement sur de nouvelles données, bien sûr; un moyen optimal d’obtenir une estimation fiable est via des méthodes robustes, voir Huber, 1972; Tukey, 1979; Rousseeuw, 1991; Portnoy et He, 2000; Erceg-Hurn et al., 2013; Field et Wilcox, 2017). Des méthodes similaires existent depuis longtemps dans lesquelles la taille de l’échantillon est basée sur la largeur maximale souhaitée pour les intervalles de confiance.,
Cette procédure de proximité met l’accent sur (a) décider ce qu’il faut pour croire que les statistiques de l’échantillon sont de bonnes estimations des paramètres de la population avant la collecte des données plutôt qu’après, et (b) obtenir une taille d’échantillon suffisamment grande pour être sûr que les statistiques de l’échantillon obtenues sont vraiment à La procédure ne favorise pas non plus le biais de publication car il n’y a pas de seuil pour les décisions de publication., Et la procédure de proximité n’est pas la même que l’analyse de puissance traditionnelle: premièrement, l’objectif de l’analyse de puissance traditionnelle est de trouver la taille de l’échantillon nécessaire pour avoir de bonnes chances d’obtenir une valeur p statistiquement significative. Deuxièmement, l’analyse de puissance traditionnelle est fortement influencée par la taille de l’effet attendu, alors que la procédure de proximité n’est pas influencée par la taille de l’effet attendu dans les modèles normaux (gaussiens).
le point le plus important est qu’il existe des alternatives créatives aux tests de signification qui abordent la question de la taille de l’échantillon beaucoup plus directement que les tests de signification., La” boîte à outils statistique « (Gigerenzer et Marewski, 2015) comprend en outre, par exemple, des intervalles de confiance (qui devraient plutôt être renommés et être utilisés comme”intervalles de compatibilité » —voir Amrhein et al., 2018; Groenland, 2018), tests d’équivalence, valeurs p comme mesures continues de preuves réfutationnelles par rapport à un modèle (Groenland, 2018), ratios de vraisemblance, méthodes bayésiennes ou critères d’information. Et dans les situations de fabrication ou de contrôle de la qualité, les décisions de Neyman-Pearson peuvent également avoir du sens (Bradley and Brand, 2016).,
mais pour l’exploration scientifique, aucun de ces outils ne devrait devenir la nouvelle méthode magique donnant des réponses mécaniques claires (Cohen, 1994), car chaque critère de sélection ignorera l’incertitude en faveur de la prise de décision binaire et produira ainsi les mêmes problèmes que ceux causés par les tests de signification. L’utilisation d’un seuil pour le facteur de Bayes, par exemple, entraînera un dilemme similaire à celui d’un seuil pour la valeur p: comme Konijn et al. (2015) a suggéré, « Dieu aimerait un facteur Bayes de 3.01 presque autant qu’un facteur Bayes de 2.99., »
enfin, l’inférence ne devrait pas du tout être basée sur des études uniques (Neyman et Pearson, 1933; Fisher, 1937; Groenland, 2017), ni sur des réplications du même laboratoire, mais sur des preuves cumulatives provenant de multiples études indépendantes. Il est souhaitable d’obtenir des estimations précises dans ces études, mais un objectif plus important est d’éliminer les biais de publication en incluant de larges intervalles de confiance et de petits effets dans la littérature, sans lesquels les preuves cumulatives seront faussées (Amrhein et al., 2017, 2018; Amrhein et Groenland, 2018)., Dans ce sens, Briggs (2016) plaide pour l’abandon de l’inférence basée sur les paramètres et l’adoption de modèles de probabilité purement prédictifs, et donc vérifiables, et Greenland (2017) voit « un besoin urgent de s’éloigner des statistiques inférentielles et de se rapprocher davantage des descriptions des procédures d’étude, de la collecte de données et des données résultantes. »
Conclusion
Il semble approprié de conclure avec la question fondamentale qui nous occupe depuis le début., Les valeurs p et les seuils de valeur p, ou tout autre outil statistique, devraient-ils être utilisés comme critère principal pour prendre des décisions de publication, ou des décisions sur l’acceptation ou le rejet d’hypothèses? Le simple fait que les chercheurs se préoccupent de la réplication, quelle que soit sa conceptualisation, indique que les études individuelles sont rarement définitives et justifient rarement une décision finale., Lors de l’évaluation de la force de la preuve, les chercheurs sophistiqués prennent en compte, de manière certes subjective, des considérations théoriques telles que la portée, l’étendue explicative et le pouvoir prédictif; la valeur des hypothèses auxiliaires reliant les Termes Non observationnels dans les théories aux termes observationnels dans les hypothèses empiriques; la force du plan expérimental; et les implications pour les applications. Réduire tout cela à une décision binaire basée sur un seuil de valeur p de 0,05, 0,01, 0,005, ou toute autre chose, n’est pas acceptable.,
contributions des auteurs
tous les auteurs énumérés ont apporté une contribution directe au document ou en approuvent le contenu, et l’ont approuvé pour publication.
déclaration de conflit d’intérêts
FK-N était employé par Oikostat GmbH. GM a agi en tant que consultant pour Janssen Research and Development, LLC.
les autres auteurs déclarent que la recherche a été menée en l’absence de toute relation commerciale ou financière pouvant être interprétée comme un conflit d’intérêts potentiel.,
Remerciements
Nous remercions Sander Greenland et Rink Hoekstra pour leurs commentaires et leurs discussions. MG reconnaît le soutien de la subvention VEGA 2/0047/15. RvdS a été soutenu par une subvention de L’organisation néerlandaise pour la recherche scientifique: NWO-VIDI-45-14-006. La Publication a été soutenue financièrement par la subvention 156294 de la Fondation Nationale Suisse pour LA SCIENCE À VA.
Bradley, M. T., et de la Marque, A. (2016). Les tests de signification ont besoin d » une taxonomie: ou comment la controverse Fisher, Neyman-Pearson a entraîné la queue inférentielle remuant le chien de mesure. Psychol. Rép. 119, 487-504., doi: 10.1177/0033294116662659
PubMed Abstract | CrossRef Texte Intégral | Google Scholar
Briggs, W. M. (2016). Incertitude: L’âme de la modélisation, des probabilités et des statistiques. New York, New York: Springer.
Google Scholar
Cohen, J. (1994). La terre est ronde (p < 0.05). Être. Psychol. 49, 997–1003.
Google Scholar
Fisher, R. A. (1925). Méthodes statistiques pour la Recherche de Travailleurs, 1ère Édition. Edinburgh: Oliver et Boyd.
Fisher, R. A. (1937)., La conception des expériences, 2e Edn. Edinburgh: Oliver et Boyd.
Fisher, R. A. (1973). Méthodes statistiques et des conclusions Scientifiques, 3e Édition. Londres: Macmillan.
Mayo, D. (1996). Erreur et croissance des connaissances expérimentales. Chicago: University of Chicago Press.
Google Scholar
Melton, A. (1962). Éditorial. J. Exp. Psychol. 64, 553–557. doi: 10.1037/h0045549
CrossRef Texte Intégral
Ouvert de Collaboration scientifique (2015). Estimation de la reproductibilité de la science psychologique., Science 349: aac4716. doi: 10.1126 / science.il s’agit de la version intégrale de CrossRef
Page, P. (2014). Au-delà de la signification statistique: l’interprétation Clinique de réadaptation de la recherche de la littérature. Int. J. Sports Phys. Ther. 9:72.
PubMed Abstract/Google Scholar
Thompson, B. (1996). AERA politiques éditoriales concernant la signification statistique de test: trois réformes proposées. Educ. Rés. 25, 26 à 30. doi: 10.2307/1176337
CrossRef Texte Intégral | Google Scholar
Trafimow, D. (2017)., Utiliser le coefficient de confiance pour faire le passage philosophique d’une statistique a posteriori à une statistique inférentielle a priori. Educ. Psychol. Ame. 77, 831–854. doi: 10.1177/0013164416667977
CrossRef Texte Intégral | Google Scholar