Viele Forscher haben Nullhypothese-Signifikanztests kritisiert, obwohl viele sie auch verteidigt haben (siehe Balluerka et al., 2005, für eine Überprüfung). Manchmal wird empfohlen, die Alpha-Stufe auf einen konservativeren Wert zu reduzieren, um die Fehlerrate vom Typ I zu senken. Zum Beispiel bevorzugte Melton (1962), der Herausgeber des Journal of Experimental Social Psychology von 1950-1962, ein Alpha-Niveau von 0,01 gegenüber dem typischen 0,05-Alpha-Niveau. In jüngerer Zeit Benjamin et al., (2018) empfohlene Verschiebung auf 0.005—im Einklang mit Meltons Kommentar, dass selbst das 0.01-Niveau möglicherweise nicht „ausreichend beeindruckend“ ist, um eine Veröffentlichung zu rechtfertigen (S. 554). Darüber hinaus Benjamin et al. (2018) festgelegt, dass die 0.005 Alpha-Ebene für neue Erkenntnisse sein sollte, waren aber vage darüber, was mit Ergebnissen zu tun, die nicht neu sind. Obwohl Benjamin et al.nicht unbedingt Signifikanztests als bevorzugtes inferentielles statistisches Verfahren befürworten (viele der Autoren bevorzugen anscheinend Bayesian-Verfahren), Benjamin et al. (2018) argumentierte, dass eine 0 verwendet wird.,005 cutoff würde viel von dem beheben, was mit Signifikanztests nicht stimmt. Leider können, wie wir zeigen werden, die Probleme mit Signifikanztests nicht wesentlich durch ein konservativeres Ablehnungskriterium gemildert werden, und einige Probleme werden durch die Annahme eines konservativeren Kriteriums verschärft.
Wir beginnen mit einigen Behauptungen von Benjamin et al. (2018). Zum Beispiel schrieben sie: „… die Änderung der P-Wertschwelle ist einfach, stimmt mit der Ausbildung vieler Forscher überein und könnte schnell eine breite Akzeptanz erreichen.,“Wenn die Signifikanzprüfung-bei jeder p-Wertschwelle-so schlecht ist, wie wir sie beibehalten werden (siehe auch Amrhein et al., 2017; Grönland, 2017), reichen diese Gründe eindeutig nicht aus, um eine bloße Änderung des Cutoffs zu rechtfertigen. Betrachten Sie eine andere Behauptung: „Die neue Signifikanzschwelle wird Forschern und Lesern helfen, Beweise genauer zu verstehen und zu kommunizieren.“Wenn Forscher jedoch Verständnis-und Kommunikationsprobleme mit einem Schwellenwert von 0,05 haben, ist unklar, wie die Verwendung eines Schwellenwerts von 0,005 diese Probleme beseitigt., Und noch eine Behauptung: „Autoren und Leser können selbst die Initiative ergreifen, indem sie die Ergebnisse im Lichte der neuen vorgeschlagenen Definition der statistischen Signifikanz angemessener beschreiben und interpretieren.“Auch hier ist nicht klar, wie die Einführung eines Schwellenwerts von 0,005 es Autoren und Lesern ermöglichen wird, die Initiative in Bezug auf eine bessere Dateninterpretation zu ergreifen. Daher gibt es auch vor einer Diskussion unserer Hauptargumente Grund für den Leser, hastigen Behauptungen ohne empirische Unterstützung misstrauisch zu sein.,
Mit dem Vorstehenden aus dem Weg, bedenken Sie, dass ein grundlegendes Problem mit Tests von Bedeutung ist, dass das Ziel ist, eine Nullhypothese abzulehnen. Dieses Ziel scheint—wenn man ein Bayesian ist—zu verlangen, dass die hintere Wahrscheinlichkeit der Nullhypothese angesichts des erhaltenen Befundes niedrig sein sollte. Der p-Wert, den man erhält, ist jedoch die Wahrscheinlichkeit des Befundes und extremerer Befunde, da die Nullhypothese und alle anderen Annahmen über das Modell korrekt waren (Grönland et al.,, 2016; Grönland, 2017), und man müsste eine ungültige inverse Inferenz machen, um eine Schlussfolgerung über die Wahrscheinlichkeit der Nullhypothese angesichts des Befundes zu ziehen. Und wenn man ein Frequentist ist, gibt es keine Möglichkeit, die logische Lücke von der Wahrscheinlichkeit des Findens und extremerer Befunde angesichts der Nullhypothese zu einer Entscheidung darüber zu durchqueren, ob man die Nullhypothese akzeptieren oder ablehnen sollte (Briggs, 2016; Trafimow, 2017). Wir akzeptieren, dass nach frequentistischer Logik die Wahrscheinlichkeit eines Fehlers vom Typ I wirklich geringer ist, wenn wir einen 0, 005-Cutoff für p als einen 0, 05-Cutoff verwenden, wobei alle anderen gleich sind., Wir akzeptieren auch das Bayes-Argument von Benjamin et al. (2018), dass die Nullhypothese weniger wahrscheinlich ist, wenn p = 0,005 als wenn p = 0,05, wobei alles andere gleich ist. Schließlich erkennen wir an, dass Benjamin et al. (2018) bot einen Dienst für die Wissenschaft, indem die Debatte über Signifikanztests weiter angeregt wurde. Aber es gibt wichtige Fragen, Benjamin et al. (2018) scheinen nicht berücksichtigt zu haben, in den folgenden Abschnitten diskutiert.,
Regression und Replizierbarkeit
Trafimow und Earp (2017) argumentierten gegen den allgemeinen Gedanken, eine Alpha-Ebene festzulegen, um Entscheidungen zu treffen, Nullhypothesen abzulehnen oder nicht abzulehnen, und die Argumente behalten ihre Kraft, auch wenn die Alpha-Ebene auf 0,005 reduziert wird. In gewisser Weise verschlechtert sich die Reduktion. Ein Problem ist, dass p-Werte eine Stichprobenvariabilität aufweisen, ebenso wie andere Statistiken (Cumming, 2012)., Der p-Wert ist jedoch insofern besonders, als er so konzipiert ist, dass er wie reines Rauschen aussieht, wenn die Nullhypothese und alle anderen Modellannahmen korrekt sind, da in diesem Fall der p-Wert gleichmäßig verteilt ist (Grönland, 2018). Unter einer alternativen Hypothese wird seine Verteilung nach unten verschoben, wobei die Wahrscheinlichkeit, dass p unter den gewählten Grenzwert fällt, die Stärke des Tests ist. Da die tatsächliche Leistung typischer Studien nicht sehr hoch ist, ist es bei korrekter Alternative weitgehend eine Frage des Glücks, ob der abgetastete p-Wert unter dem gewählten Alpha-Level liegt., Wenn, wie es oft der Fall ist, die Leistung viel unter 50% liegt (Smaldino und McElreath, 2016), ist es unwahrscheinlich, dass der Forscher bei der Replikation einen p-Wert unter einem Signifikanzschwellenwert erneut abtastet, da möglicherweise viel mehr p-Werte über als unter dem Schwellenwert in der p-Wertverteilung liegen (Goodman, 1992; Senn, 2002; Halsey et al., 2015). Dieses Problem wird noch schlimmer, wenn der Cutoff gesenkt wird, da bei einer konstanten Probengröße die Leistung mit dem Cutoff abfällt.,
Selbst wenn man keinen Cutoff verwendet, deutet das Phänomen der Regression auf den Mittelwert darauf hin, dass der in einem Replikationsexperiment erhaltene p-Wert wahrscheinlich auf den mittleren p-Wert zurückfällt, wenn viele Replikationen durchgeführt würden. Wie viel Regression sollte auftreten? Wenn die Nullhypothese falsch ist, hängt dies davon ab, wie variabel die Punktschätzungen und damit die p-Werte sind.
Darüber hinaus führt die Variabilität der p-Werte zu einer schlechten Korrelation zwischen Replikationen., Basierend auf Daten, die von der Open Science Collaboration online gestellt wurden (2015; https://osf.io/fgjvw), berechneten Trafimow und de Boer (eingereicht) eine Korrelation von nur 0,004 zwischen p-Werten, die in der ursprünglichen Kohorte von Studien mit p-Werten erhalten wurden, die in der Replikationskohorte erhalten wurden, im Vergleich zur erwarteten Korrelation von Null, wenn alle Nullhypothesen und Modelle, die zur Berechnung der p-Werte verwendet wurden, korrekt waren (und somit alle p-Werte gleichmäßig verteilt waren).,
Es gibt mehrere mögliche Gründe für die geringe Korrelation, darunter, dass die meisten der untersuchten Assoziationen tatsächlich fast Null gewesen sein könnten, so dass die p-Werte in erster Linie eine Funktion des Rauschens blieben und daher eine Korrelation nahe Null erwartet werden sollte., Aber selbst wenn viele oder die meisten Assoziationen bei weitem nicht null waren, wodurch die p-Werte nach unten in Richtung Null verschoben und eine positive Korrelation bei der Replikation erzeugt wurde, bleibt diese Korrelation nicht nur aufgrund des großen zufälligen Fehlers in p-Werten, sondern auch aufgrund der unvollkommenen Replikationsmethodik und der nichtlinearen Beziehung zwischen p-Werten und Effektgrößen niedrig („Korrigieren“ der Korrelation für die Dämpfung aufgrund von Bereichsbeschränkungen erhöht in der ursprünglichen Kohorte von Studien die Korrelation auf 0,01, was immer noch niedrig ist)., Wenn die meisten der getesteten Nullhypothesen falsch waren, könnte die geringe Replizierbarkeit des p-Werts, wie sie durch die Open Science Collaboration belegt wird, teilweise auf die Publikationsverzerrung zurückzuführen sein, die durch ein Veröffentlichungskriterium auf der Grundlage von p-Werten verursacht wird (Locascio, 2017a; Amrhein und Grönland, 2018)., Wenn man jedoch eine solche Zuordnung vornehmen möchte, obwohl dies eine Rechtfertigung für die Verwendung von p-Werten in einem hypothetischen wissenschaftlichen Universum darstellen kann, in dem p-Werte aus falschen Nullen aufgrund fehlender Publikationsverzerrungen replizierbarer sind, bietet die Zuordnung einen weiteren wichtigen Grund, um jegliche Art von Veröffentlichungskriterien zu vermeiden, die auf p-Werten oder anderen statistischen Ergebnissen basieren (Amrhein und Grönland, 2018).,
Somit hat der erhaltene p-Wert in einer ursprünglichen Studie wenig mit dem p-Wert zu tun, der in einem Replikationsexperiment erhalten wurde (was genau die tatsächliche Theorie der p-Werte besagt, sollte der Fall sein). Die beste Vorhersage wäre, dass ein p-Wert für das Replikationsexperiment wesentlich näher am Mittelwert der p-Wertverteilung liegt als der im ursprünglichen Experiment erhaltene p-Wert. Unter jeder Hypothese ist der im ursprünglichen Experiment veröffentlichte p-Wert umso niedriger (z. B. 0,001 anstelle von 0.,01), desto wahrscheinlicher stellt es einen größeren Abstand des p-Wertes vom p-Wert-Mittelwert dar, was eine erhöhte Regression zum Mittelwert impliziert.
All dies bedeutet, dass binäre Entscheidungen, die auf p-Werten basieren, über die Ablehnung oder Akzeptanz von Hypothesen, über die Stärke der Beweise (Fisher, 1925, 1973) oder über die Schwere des Tests (Mayo, 1996), unzuverlässige Entscheidungen sein werden. Dies könnte argumentiert werden, ein guter Grund, nicht zu verwenden die p-Werte bei allen, oder zumindest, Sie nicht zu verwenden für die Entscheidung, ob oder nicht zu beurteilen, wissenschaftliche Hypothesen als richtig (Amrhein et al., 2018).,
Fehlerraten und variable Alpha-Werte
Ein weiterer Nachteil der Verwendung einer festgelegten Alpha-Stufe für die Veröffentlichung besteht darin, dass die relative Bedeutung von Fehlern vom Typ I und Typ II in Studien innerhalb oder zwischen Bereichen und Forschern unterschiedlich sein kann (Trafimow und Earp, 2017). Das Festlegen eines pauschalen Pegels von 0,05 oder 0,005 oder irgendetwas anderem zwingt die Forscher, so zu tun, als ob die relative Bedeutung von Fehlern vom Typ I und Typ II konstant ist. Benjamin et al. (2018) versuchen Sie, ihre Empfehlung zu rechtfertigen, auf 0 zu reduzieren.,005 Ebene durch den Hinweis auf ein paar Bereiche der Wissenschaft, die sehr niedrige Alpha-Werte verwenden, aber diese Beobachtung ist ebenso im Einklang mit der Idee, dass eine Decke Ebene über die Wissenschaft unerwünscht ist. Und es gibt gute Gründe, warum Variationen über Felder und Themen hinweg zu erwarten sind: Eine Vielzahl von Faktoren kann die relative Bedeutung von Typ-I-und Typ-II-Fehlern beeinflussen, wodurch pauschale Empfehlungen unerwünscht werden. Diese Faktoren können die Klarheit der Theorie, Hilfsannahmen, praktische oder angewandte Bedenken oder experimentelle Strenge umfassen., In der Tat haben Miller und Ulrich (2016) gezeigt, wie sich diese und andere Faktoren direkt auf die endgültige Forschungsauszahlung auswirken. Es gibt eine beeindruckende Literatur, die die Schwierigkeiten bei der Festlegung einer pauschalen Empfehlung belegt (z. B. Buhl-Mortensen, 1996; Lemons et al., 1997; Zitronen und Victor, 2008; Lieberman und Cunningham, 2009; Myhr, 2010; Reis und Trafimow, 2010; Mudge et al., 2012; Lakens et al., 2018).
Wir argumentieren jedoch nicht, dass jeder Forscher sein eigenes Alpha-Level für jede Studie festlegen sollte, wie von Neyman und Pearson (1933) und Lakens et al., (2018), weil das auch Probleme hat (Trafimow und Earp, 2017). Zum Beispiel bleiben bei variablen Schwellenwerten viele alte Probleme mit Signifikanztests ungelöst, wie die Probleme der Regression auf den Mittelwert der p-Werte, die Inflation der Effektgrößen (der „Fluch des Gewinners“, siehe unten), selektive Berichterstattung und Publikationsverzerrung und der allgemeine Nachteil, Entscheidungen zu schnell zu erzwingen, anstatt kumulative Beweise über Experimente hinweg zu berücksichtigen. Angesichts der Unsicherheit um statistische Inferenz (Grönland, 2017, 2018; Amrhein et al.,, 2018) bezweifeln wir stark, dass wir Fehlerraten erfolgreich „kontrollieren“ könnten, wenn wir nur unser Alpha-Level und andere Entscheidungen im Vorfeld einer Studie rechtfertigen würden, wie Lakens et al. (2018) scheinen in ihrem Kommentar Benjamin et al. (2018). Dennoch Lakens et al. (2018) folgern, dass „der Begriff ’statistisch signifikant‘ nicht mehr verwendet werden sollte.“Wir sind uns einig, aber wir denken, dass Signifikanztests mit einem berechtigten Alpha immer noch Signifikanztests sind, unabhängig davon, ob der Begriff „Signifikanz“ verwendet wird oder nicht.,
Da sowohl pauschale als auch variable Alpha-Werte problematisch sind, ist es sinnvoll, die statistische Signifikanz nicht neu zu definieren,sondern ganz auf Signifikanztests zu verzichten, wie von McShane et al. (2018) und Amrhein und Grönland (2018), zwei weitere Kommentare zu Benjamin et al. (2018).
Definition der Replizierbarkeit
Ein weiterer Nachteil betrifft das, was Benjamin et al. (2018) als Hauptvorteil ihres Vorschlags angepriesen, dass veröffentlichte Ergebnisse mit dem 0.005-Alpha-Level als dem 0.05-Alpha-Level replizierbarer sein werden., Dies hängt davon ab, was mit „Replizieren“ gemeint ist (siehe Lykken, 1968, für einige Definitionen). Wenn man für die ursprüngliche Studie und die Replikationsstudie auf demselben Alpha-Level besteht, sehen wir keinen Grund zu der Annahme, dass es mit dem 0.005-Level erfolgreichere Replikationen geben wird als mit dem 0.05-Level. Tatsächlich legt das zuvor vorgestellte statistische Regressionsargument nahe, dass das Regressionsproblem mit 0.005 noch schlimmer wird als mit 0.05. Alternativ, wie Benjamin et al. (2018) scheinen darauf hinzudeuten, dass man 0,005 für die ursprüngliche Studie und 0,05 für die Replikationsstudie verwenden könnte., In diesem Fall stimmen wir zu, dass die Kombination von 0,005 und 0,05 weniger erfolglose Replikationen erzeugt als die Kombination von 0,05 und 0,05 für die Anfangs-bzw. Dies hat jedoch einen hohen Preis in der Willkür. Angenommen, zwei Studien bei p < 0,005 und p < 0.05, respectively. Dies würde als erfolgreiche Replikation gelten. Nehmen wir dagegen an, dass die beiden Studien bei p 0.05 und p < 0.005 eingehen., Nur die zweite Studie würde zählen, und die Kombination würde nicht als Hinweis auf eine erfolgreiche Replikation gelten. Das Beharren darauf, dass die Festlegung eines Cutoffs von 0,005 die Forschung replizierbarer macht, würde viel mehr Spezifität in Bezug auf die Konzeptualisierung der Replizierbarkeit erfordern.
Darüber hinaus sehen wir keinen einzigen Replikationserfolg oder-fehler als endgültig an. Wenn man einen starken Fall für Replikationserfolg oder-misserfolg geltend machen möchte, sind mehrere Replikationsversuche wünschenswert. Wie jüngste erfolgreiche klinische Studien in der Kognitionspsychologie belegen (Zwaan et al.,, 2017) – und Sozialwissenschaften (Mullinix et al., 2015) wird die Qualität der Theorie und der Grad, in dem Modellannahmen erfüllt werden, die Replizierbarkeit entscheidend beeinflussen.
Hinterfragen der Annahmen
Die bisherige Diskussion steht unter dem Vorwand, dass die der Interpretation von p-Werten zugrunde liegenden Annahmen wahr sind. Aber wie wahrscheinlich ist das? Berk und Freedman (2003) haben stark darauf hingewiesen, dass die Annahmen einer zufälligen und unabhängigen Stichprobe aus einer Population selten wahr sind., Die Probleme sind besonders hervorstechend in den klinischen Wissenschaften, wo die Falschheit der Annahmen sowie die Divergenzen zwischen statistischer und klinischer Signifikanz besonders offensichtlich und dramatisch sind (Bhardwaj et al., 2004; Ferrill et al., 2010; Fethney, 2010; Seite, 2014). Statistische Tests testen jedoch nicht nur Hypothesen, sondern unzählige Annahmen und das gesamte Umfeld, in dem Forschung stattfindet (Grönland, 2017, 2018; Amrhein et al., 2018)., Das Problem der wahrscheinlichen falschen Annahmen, in Kombination mit den anderen bereits diskutierten Problemen, macht die illusorische Sammlung von Wahrheit aus p-Werten, oder von einer anderen statistischen Methode, noch dramatischer.
Die Populationseffektgröße
Fahren wir mit den Signifikanz-und Replikationsproblemen fort und kehren zu dem Vorwand zurück, dass Modellannahmen korrekt sind, während wir bedenken, dass dies unwahrscheinlich ist. Bedenken Sie, dass, wie es jetzt aussieht, Signifikanztests mit der 0 verwendet werden.,05 Kriterium, die Populationseffektgröße spielt eine wichtige Rolle sowohl bei der Erzielung statistischer Signifikanz (alle anderen sind gleich, die Stichprobeneffektgröße ist größer, wenn die Populationseffektgröße größer ist) als auch bei der Erzielung statistischer Signifikanz zweimal für eine erfolgreiche Replikation. Die Umstellung auf den Cutoff 0.005 würde die Bedeutung der Populationseffektgröße nicht verringern und ihre Bedeutung erhöhen, es sei denn, die Stichprobengrößen stiegen erheblich von denen, die derzeit verwendet werden. Und es gibt guten Grund abzulehnen, dass die Replizierbarkeit von der Größe des Populationseffekts abhängen sollte., Um dies schnell zu sehen, betrachten Sie eines der wichtigsten wissenschaftlichen Experimente aller Zeiten von Michelson und Morley (1887). Sie verwendeten ihr Interferometer, um zu testen, ob das Universum mit einem leuchtenden Äther gefüllt ist, mit dem Licht von den Sternen zur Erde gelangen kann. Ihre Stichprobeneffektgröße war sehr klein, und Physiker akzeptieren, dass die Populationseffektgröße Null ist, weil es keinen leuchtenden Äther gibt. Verwendung traditioneller Signifikanztests mit 0,05 oder 0.,005 cutoff, replizieren von Michelson und Morley wäre problematisch (siehe Sawilowsky, 2003, für eine Diskussion dieses experiment im Rahmen von Hypothese zu testen). Und doch halten Physiker das Experiment für sehr replizierbar (siehe auch Meehl, 1967). Jeder Vorschlag mit p-Wert-Ablehnungskriterien zwingt die Replikationswahrscheinlichkeit, von der Populationseffektgröße beeinflusst zu werden, und muss daher abgelehnt werden, wenn wir die Vorstellung akzeptieren, dass die Replizierbarkeit nicht von der Populationseffektgröße abhängen sollte.
Zusätzlich mit einem Alpha-Pegel von 0.,005, große Effektgrößen wären für die Veröffentlichung wichtiger, und die Forscher könnten sich viel mehr auf „offensichtliche“ Forschung konzentrieren als auf das Testen kreativer Ideen, bei denen ein größeres Risiko für kleine Effekte und p-Werte besteht, die den 0,005-Balken nicht erfüllen. Sehr wahrscheinlich ist ein Grund, warum Ergebnisse in Wissenschaften wie der Psychologie so schwer zu veröffentlichen sind, dass die Tradition der Verwendung von P-Wert-Cutoffs so tief verwurzelt ist. Es wäre von Vorteil, diese Tradition zu beenden.,
Genauigkeit veröffentlichter Effektgrößen
Es ist wünschenswert, dass veröffentlichte Fakten in wissenschaftlichen Literaturen die Realität genau widerspiegeln. Betrachten Sie noch einmal das Regressionsproblem. Je strenger die Kriterienebene für die Veröffentlichung ist, desto mehr Abstand besteht von einem Befund, der das Kriterium an den Mittelwert weitergibt, und so gibt es einen zunehmenden Regressionseffekt. Auch bei der 0.,Auf Alpha-Ebene haben Forscher seit langem erkannt, dass veröffentlichte Effektgrößen wahrscheinlich nicht die Realität widerspiegeln oder zumindest nicht die Realität, die zu sehen wäre, wenn es viele Replikationen jedes Experiments gäbe und alle veröffentlicht würden (siehe Briggs, 2016; Grice, 2017; Hyman, 2017; Kline,2017; Locascio, 2017a, b; Marks, 2017 für eine aktuelle Diskussion dieses Problems). Unter angemessenen Stichprobengrößen und angemessenen Populationseffektgrößen sind es die ungewöhnlich großen Stichprobeneffektgrößen, die zu p-Werten führen, die den 0,05-Wert oder den 0-Wert erfüllen.,005-Ebene oder eine andere Alpha-Ebene, wie aus der Sicht der statistischen Regression offensichtlich ist. Und bei typischerweise niedrigen Stichprobengrößen werden statistisch signifikante Effekte häufig überschätzt Populationseffektgrößen, die als „Effektgrößeninflation“, „Wahrheitsinflation“ oder „Gewinnerfluch“ bezeichnet werden (Amrhein et al., 2017). Die Überschätzung der Effektgröße wurde empirisch in der Open Science Collaboration (2015) nachgewiesen, bei der die durchschnittliche Effektgröße in der Replikationskohorte von Studien gegenüber der durchschnittlichen Effektgröße in der ursprünglichen Kohorte (von 0,403 auf 0,197) drastisch reduziert wurde., Der Wechsel zu einem strengeren 0,005-Cutoff würde zu einer noch schlechteren Überschätzung der Effektgröße führen (Button et al., 2013; Amrhein und Grönland, 2018). Die Wichtigkeit, dass veröffentlichte Effektgrößen die Populationseffektgrößen genau widerspiegeln, widerspricht der Verwendung von Schwellenwertkriterien und Signifikanztests auf jeder Alpha-Ebene.
Stichprobengröße und Alternativen zu Signifikanztests
Wir betonen, dass die Replikation weitgehend von der Stichprobengröße abhängt, aber es gibt Faktoren, die Forscher bei der Verwendung der großen Stichprobengrößen stören, die für eine gute Stichprobenpräzision und Replizierbarkeit erforderlich sind., Zusätzlich zu den offensichtlichen Kosten für den Erhalt großer Stichprobengrößen kann es zu einer Unterschätzung der Stichprobengröße kommen (Vankov et al., 2014), von der Bedeutung von Anreizen, Neuheit gegenüber Replizierbarkeit zu begünstigen (Nosek et al., 2012) und eines weit verbreiteten Missverständnisses, dass das Komplement von p-Werten die Replizierbarkeit misst (Cohen, 1994; Thompson, 1996; Grönland et al., 2016). Ein Fokus auf die Stichprobengröße schlägt eine Alternative zu Signifikanztests vor., Trafimow (2017; Trafimow und MacDonald, 2017) schlugen ein Verfahren wie folgt vor: Die Forscherin gibt an, wie nahe sie die Stichprobenstatistik an ihren entsprechenden Populationsparametern haben möchte, und die gewünschte Wahrscheinlichkeit, so nahe zu sein. Trafimows Gleichungen können verwendet werden, um die erforderliche Stichprobengröße zu erhalten, um diese Nahheitsspezifikation zu erfüllen., Der Forscher erhält dann die erforderliche Stichprobengröße, berechnet die deskriptiven Statistiken und nimmt sie als genaue Schätzungen der Bevölkerungsparameter (vorläufig natürlich auf neuen Daten; Ein optimaler Weg, um eine zuverlässige Schätzung zu erhalten, sind robuste Methoden, siehe Huber, 1972; Tukey, 1979; Rousseeuw, 1991; Portnoy und He, 2000; Erceg-Hurn et al., 2013; Feld-und Wilcox, 2017). Ähnliche Verfahren gibt es schon lange, bei denen die Stichprobengröße auf der gewünschten maximalen Breite für Konfidenzintervalle basiert.,
Dieses Verfahren der Nähe betont (a) die Entscheidung darüber, was es braucht, um zu glauben, dass die Stichprobenstatistiken gute Schätzungen der Bevölkerungsparameter vor der Datenerhebung und nicht danach sind, und (b) die Gewinnung einer ausreichend großen Stichprobengröße, um sicher zu sein, dass die erhaltenen Stichprobenstatistiken wirklich innerhalb der angegebenen Entfernungen der entsprechenden Bevölkerungsparameter liegen. Das Verfahren fördert auch keine Voreingenommenheit bei der Veröffentlichung, da es für Veröffentlichungsentscheidungen keinen Cutoff gibt., Und das Verfahren der Nähe ist nicht dasselbe wie bei der herkömmlichen Leistungsanalyse: Erstens besteht das Ziel der traditionellen Leistungsanalyse darin, die Stichprobengröße zu finden, die erforderlich ist, um eine gute Chance zu haben, einen statistisch signifikanten p-Wert zu erhalten. Zweitens wird die traditionelle Leistungsanalyse stark von der erwarteten Effektgröße beeinflusst, während das Näherungsverfahren unter normalen (Gaußschen) Modellen nicht von der erwarteten Effektgröße beeinflusst wird.
Der größere Punkt ist, dass es kreative Alternativen zu Signifikanztests gibt, die sich viel direkter mit dem Problem der Stichprobengröße befassen als Signifikanztests., Die “ Statistical Toolbox „(Gigerenzer und Marewski, 2015) umfasst ferner beispielsweise Konfidenzintervalle (die eher umbenannt und als“Kompatibilitätsintervalle“ verwendet werden sollten—siehe Amrhein et al., 2018; Grönland, 2018), Äquivalenztests, p-Werte als kontinuierliche Maße widerlegender Beweise gegen ein Modell (Grönland, 2018), Wahrscheinlichkeitsverhältnisse, bayessche Methoden oder Informationskriterien. Und in Fertigungs-oder Qualitätskontrollsituationen können auch Neyman-Pearson-Entscheidungen sinnvoll sein (Bradley und Brand, 2016).,
Aber für die wissenschaftliche Erforschung sollte keines dieser Werkzeuge zur neuen magischen Methode werden, die klare mechanische Antworten gibt (Cohen, 1994), da jedes Auswahlkriterium die Unsicherheit zugunsten der binären Entscheidungsfindung ignoriert und somit die gleichen Probleme hervorruft wie die durch Signifikanztests verursachten. Die Verwendung eines Schwellenwerts für den Bayes-Faktor führt beispielsweise zu einem ähnlichen Dilemma wie bei einem Schwellenwert für den p-Wert: as Konijn et al. (2015) schlug vor: „Gott würde einen Bayes-Faktor von 3,01 fast so sehr lieben wie einen Bayes-Faktor von 2,99.,“
Schließlich sollte die Inferenz nicht auf einzelnen Studien basieren (Neyman und Pearson, 1933; Fisher, 1937; Grönland, 2017), noch auf Replikationen aus demselben Labor, sondern auf kumulativen Beweisen aus mehreren unabhängigen Studien. Es ist wünschenswert, in diesen Studien genaue Schätzungen zu erhalten, aber ein wichtigeres Ziel ist es, die Verzerrung der Veröffentlichung zu beseitigen, indem breite Konfidenzintervalle und kleine Effekte in die Literatur einbezogen werden, ohne die die kumulativen Beweise verzerrt werden (Amrhein et al., 2017, 2018; Amrhein und Grönland, 2018)., In diesem Sinne argumentiert Briggs (2016) dafür, parameterbasierte Inferenz aufzugeben und rein prädiktive und daher überprüfbare Wahrscheinlichkeitsmodelle zu übernehmen, und Grönland (2017) sieht „eine dringende Notwendigkeit, sich von inferenziellen Statistiken zu entfernen und genauer auf Beschreibungen von Studienverfahren, Datenerfassung und die daraus resultierenden Daten zu achten.“
Schlussfolgerung
Es scheint angebracht, mit dem Grundproblem zu schließen, das von Anfang an bei uns war., Sollten P-Werte und P-Wert-Schwellenwerte oder ein anderes statistisches Instrument als Hauptkriterium für Veröffentlichungsentscheidungen oder Entscheidungen über die Annahme oder Ablehnung von Hypothesen verwendet werden? Die bloße Tatsache, dass sich Forscher mit der Replikation befassen, wie auch immer sie konzeptualisiert wird, deutet darauf hin, dass einzelne Studien selten endgültig sind und selten eine endgültige Entscheidung rechtfertigen., Bei der Bewertung der Stärke der Beweise berücksichtigen hoch entwickelte Forscher auf zugegebenermaßen subjektive Weise theoretische Überlegungen wie Umfang, Erklärungsbreite und Vorhersagekraft; der Wert der Hilfsannahmen, die nicht beobachtende Begriffe in Theorien mit beobachtenden Begriffen in empirischen Hypothesen verbinden; die Stärke des experimentellen Designs; und Implikationen für Anwendungen. All dies auf eine binäre Entscheidung zu reduzieren, die auf einem p-Wert-Schwellenwert von 0,05, 0,01, 0,005 oder irgendetwas anderem basiert, ist nicht akzeptabel.,
Autorenbeiträge
Alle aufgeführten Autoren haben einen direkten Beitrag zum Papier geleistet oder dessen Inhalt befürwortet und zur Veröffentlichung freigegeben.
Interessenkonflikterklärung
FK-N wurde von der Oikostat GmbH eingesetzt. GM agieren als Berater für Janssen Research and Development, LLC.
Die anderen Autoren erklären, dass die Forschung ohne kommerzielle oder finanzielle Beziehungen durchgeführt wurde, die als potenzieller Interessenkonflikt ausgelegt werden könnten.,
Danksagungen
Wir danken Sander Grönland und Rink Hoekstra für Kommentare und Diskussionen. MG erkennt Unterstützung von VEGA 2/0047/15 Zuschuss. RvdS wurde durch ein Stipendium der niederländischen Organisation für wissenschaftliche Forschung unterstützt: NWO-VIDI-45-14-006. Die Publikation wurde finanziell unterstützt durch das Stipendium 156294 der Schweizerischen Nationalstiftung für Wissenschaft an die VA.
Bradley, M. T., und die Marke, A. (2016). Signifikanztest braucht eine Taxonomie: oder wie der Fischer, Neyman-Pearson Kontroverse führte zu dem inferenziellen Schwanz wedeln der Messung Hund. Psychol. Rep. 119, 487-504., doi: 10.1177/0033294116662659
PubMed Abstract | CrossRef Full Text | Google Scholar
Briggs, W. M. (2016). Unsicherheit: Die Seele der Modellierung, Wahrscheinlichkeit und Statistik. New York: Springer.
Google Scholar
Cohen, J. (1994). Die Erde ist rund (p < 0.05). Uhr. Psychol. 49, 997–1003.
Google Scholar
Fisher, R. A. (1925). Statistische Methoden für Forscher, 1.Aufl. Edinburgh: Oliver und Boyd.
Fisher, R. A. (1937)., Design of Experiments, 2nd Edn. Edinburgh: Oliver und Boyd.
Fisher, R. A. (1973). Statistische Methoden und Wissenschaftliche Inference, 3rd Edn. London: Macmillan.
Mayo, D. (1996). Fehler und das Wachstum von experimentellem Wissen. Chicago, IL: The University of Chicago Press.
Google Scholar
Melton, A. (1962). Redaktionell. J. Exp. Psychol. 64, 553–557. doi: 10.1037 / h0045549
CrossRef Volltext
Open Science Collaboration (2015). Schätzung der Reproduzierbarkeit der psychologischen Wissenschaft., Wissenschaft 349: aac4716. doi: 10.1126/science.aac4716
CrossRef Volltext
Seite, P. (2014). Über statistische Signifikanz: Clinical interpretation of rehabilitation research literature. Int. J. Sport Phys. Ther. 9:72.
PubMed Abstract | Google Scholar
Thompson, B. (1996). AERA redaktionellen Richtlinien bezüglich der statistischen Signifikanz-Tests: drei vorgeschlagenen Reformen. Educ. Res. 25, 26-30. doi: 10.2307/1176337
CrossRef Full Text | Google Scholar
Trafimow, D. (2017)., Verwendung des Vertrauenskoeffizienten, um den philosophischen Wechsel von a posteriori zu a priori Inferentialstatistiken vorzunehmen. Educ. Psychol. Meas. 77, 831–854. doi: 10.1177 / 0013164416667977
CrossRef Volltext / Google Scholar