veel onderzoekers hebben de nulhypothese significantie testen bekritiseerd, hoewel velen het ook hebben verdedigd (zie Balluerka et al., 2005, for a review). Soms wordt aanbevolen het alfaniveau te verlagen tot een meer conservatieve waarde, om het type I-foutenpercentage te verlagen. Bijvoorbeeld, Melton (1962), de redacteur van Journal of Experimental Social Psychology van 1950-1962, gaf de voorkeur aan een alfaniveau van 0,01 boven het typische 0,05 alfaniveau. Meer recent, Benjamin et al., (2018) aanbevolen verschuiving naar 0,005—in overeenstemming met Melton ‘ s opmerking dat zelfs de 0,01 niveau misschien niet “voldoende indrukwekkend” om publicatie te rechtvaardigen (p. 554). Daarnaast, Benjamin et al. (2018) bepaalde dat het 0,005 alfaniveau voor nieuwe bevindingen zou moeten zijn, maar waren vaag over wat te doen met bevindingen die niet nieuw zijn. Hoewel niet noodzakelijkerwijs het onderschrijven van significantie testen als de geprefereerde inferentiële statistische procedure( veel van de auteurs blijkbaar voorkeur Bayesiaanse procedures), Benjamin et al. (2018)stelde dat het gebruik van een 0.,005 cutoff zou veel van wat er mis is met significantie testen op te lossen. Helaas kunnen, zoals we zullen aantonen, de problemen met significantietesten niet aanzienlijk worden verzacht door alleen maar een conservatiever afwijzingscriterium te hanteren, en sommige problemen worden verergerd door een conservatiever criterium te hanteren.
we beginnen met enkele claims van Benjamin et al. (2018). Ze schreven bijvoorbeeld: “… het veranderen van de P-waardedrempel is eenvoudig, stemt overeen met de opleiding van veel onderzoekers en kan snel een brede acceptatie bereiken.,”Als significantie testen – op een p – waarde drempel – is zo slecht gebrekkig als we zullen handhaven is (zie ook Amrhein et al., 2017; Groenland, 2017), zijn deze redenen duidelijk onvoldoende om alleen maar het veranderen van de cutoff te rechtvaardigen. Overweeg een andere bewering: “de nieuwe betekenisdrempel zal onderzoekers en lezers helpen om bewijs nauwkeuriger te begrijpen en te communiceren.”Maar als onderzoekers begrip en communicatie problemen hebben met een 0.05 drempel, is het onduidelijk hoe het gebruik van een 0.005 drempel deze problemen zal elimineren., En overweeg nog een andere bewering: “auteurs en lezers kunnen zelf het initiatief nemen door de resultaten beter te beschrijven en te interpreteren in het licht van de nieuwe voorgestelde definitie van statistische significantie.”Nogmaals, het is niet duidelijk hoe het aannemen van een 0.005 drempel auteurs en lezers zal toestaan om het initiatief te nemen met betrekking tot een betere data interpretatie. Dus, zelfs voorafgaand aan een bespreking van onze belangrijkste argumenten, is er reden voor de lezer om achterdochtig te zijn van overhaaste beweringen zonder empirische ondersteuning.,
met het voorgaande uit de weg, overweeg dan dat een fundamenteel probleem met significantietesten is dat het doel is om een nulhypothese te verwerpen. Dit doel lijkt te eisen-als men een Bayesiaans is-dat de posterieure waarschijnlijkheid van de nulhypothese laag moet zijn gegeven de verkregen bevinding. Maar de p-waarde die men verkrijgt is de waarschijnlijkheid van de bevinding, en van meer extreme bevindingen, gezien het feit dat de nulhypothese en alle andere veronderstellingen over het model correct waren (Greenland et al.,, 2016; Groenland, 2017), en men zou een ongeldige inverse gevolgtrekking moeten maken om een conclusie te trekken over de waarschijnlijkheid van de nulhypothese gegeven de bevinding. En als men een frequentist is, is er geen manier om de logische kloof te overbruggen van de waarschijnlijkheid van het vinden en van meer extreme bevindingen, gegeven de nulhypothese, naar een beslissing over de vraag of men de nulhypothese moet accepteren of afwijzen (Briggs, 2016; Trafimow, 2017). We accepteren dat, door frequentist logica, de kans op een type I fout echt lager is als we een 0.005 cutoff voor p gebruiken dan een 0.05 cutoff, al het andere is gelijk., We accepteren ook het Bayesiaanse argument van Benjamin et al. (2018) dat de nulhypothese minder waarschijnlijk is als p = 0,005 dan als p = 0,05, al het andere is gelijk. Tot slot erkennen we dat Benjamin et al. (2018) leverde een dienst aan de wetenschap door het debat over significantie testen verder te stimuleren. Maar er zijn belangrijke zaken Benjamin et al. (2018) lijken niet te hebben overwogen, besproken in de volgende secties.,
regressie en repliceerbaarheid
Trafimow and Earp (2017) argumenteerden tegen de Algemene notie van het instellen van een alfaniveau om beslissingen te nemen om nulhypothesen af te wijzen of niet af te wijzen, en de argumenten behouden hun kracht zelfs als het alfaniveau wordt verlaagd tot 0,005. In sommige opzichten verergert de vermindering de zaken. Een probleem is dat p-waarden steekproefvariabiliteit hebben, net als andere statistieken (Cumming, 2012)., Maar de p-waarde is speciaal in die zin dat het is ontworpen om eruit te zien als pure ruis als de nulhypothese en alle andere modelaannames juist zijn, want in dat geval is de p-waarde gelijkmatig verdeeld over (Groenland, 2018). In een alternatieve hypothese wordt de verdeling ervan naar beneden verschoven, waarbij de kans dat p onder de gekozen cutoff valt, het vermogen van de test is. Omdat de werkelijke kracht van typische studies niet erg hoog is, zal het, wanneer het alternatief juist is, grotendeels een kwestie van geluk zijn of de bemonsterde p-waarde onder het gekozen alfaniveau ligt., Wanneer, zoals vaak het geval is, de macht is veel minder dan 50% (Smaldino and McElreath, 2016), de onderzoeker is het onwaarschijnlijk dat opnieuw monster een p-waarde onder een significantie drempel bij replicatie, als er veel meer p-waarden boven dan onder de drempel in de p-waarde distributie (Goodman, 1992; Senn, 2002; Halsey et al., 2015). Dit probleem wordt erger als de cut-off wordt verlaagd, omdat voor een constante steekproefgrootte, de macht daalt met de cut-off.,
zelfs als men geen cut-off heeft gebruikt, suggereert het verschijnsel van regressie tot het gemiddelde dat de p-waarde die in een replicatieexperiment wordt verkregen waarschijnlijk zal teruglopen tot wat de gemiddelde p-waarde zou zijn als veel replicaties werden uitgevoerd. Hoeveel regressie moet optreden? Wanneer de nulhypothese onjuist is, hangt dat af van hoe variabel de puntschattingen en dus de p-waarden zijn.
bovendien resulteert de variabiliteit van p-waarden in een slechte correlatie tussen replicaties., Gebaseerd op gegevens online geplaatst door de Open Science Samenwerking (2015; https://osf.io/fgjvw), Trafimow en de Boer (ingediend) berekend dat een correlatie van slechts 0.004 tussen de p-waarden, verkregen in het oorspronkelijke cohort studies met p-waarden verkregen in de replicatie cohort, ten opzichte van de verwachte correlatie van nul als de null-hypothese en de gebruikte modellen voor het berekenen van de p-waarden waren correct (en dus alle p-waarden werden gelijkmatig verdeeld).,
Er zijn verschillende mogelijke redenen voor de lage correlatie, waaronder het feit dat de meeste bestudeerde associaties in feite bijna nul zijn geweest, zodat de p-waarden voornamelijk een functie van lawaai bleven en dus een correlatie van bijna nul te verwachten is., Maar zelfs als veel of de meeste associaties verre van nul waren, waardoor de p-waarden naar beneden werden verschoven naar nul en een positieve correlatie op replicatie werd gecreëerd, zal die correlatie laag blijven, niet alleen vanwege de grote willekeurige fout in p-waarden, maar ook vanwege de onvolmaakte replicatie methodologie en de niet-lineaire relatie tussen p-waarden en effectgroottes (het”corrigeren” van de correlatie voor verzwakking als gevolg van beperking van het bereik, in de oorspronkelijke cohort van studies, verhoogt de correlatie tot 0,01, die nog steeds laag is)., Ook, als de meeste van de geteste nulhypothesen onjuist waren, zou de lage repliceerbaarheid van de p-waarde, zoals blijkt uit de Open Science-samenwerking, gedeeltelijk kunnen worden toegeschreven aan de publicatiebias die wordt veroorzaakt door het hebben van een publicatiecriterium op basis van p-waarden (Locascio, 2017a; Amrhein and Greenland, 2018)., Maar als men een dergelijke attributie wil maken, hoewel het een rechtvaardiging kan zijn voor het gebruik van p-waarden in een hypothetisch wetenschappelijk universum waar p-waarden uit valse nulls meer repliceerbaar zijn vanwege een gebrek aan publicatievooroordeel, biedt de attributie nog een andere belangrijke reden om elke vorm van publicatiecriteria op basis van p-waarden of andere statistische resultaten te vermijden (Amrhein and Greenland, 2018).,
de verkregen p-waarde in een oorspronkelijke studie heeft dus weinig te maken met de p-waarde verkregen in een replicatieexperiment (dat is precies wat de werkelijke theorie van p-waarden het geval zou moeten zijn). De beste voorspelling zou een p-waarde voor het replicatieexperiment zijn die veel dichter bij het gemiddelde van de P-waardeverdeling ligt dan bij de p-waarde die in het oorspronkelijke experiment is verkregen. Onder elke hypothese, hoe lager de p-waarde gepubliceerd in het oorspronkelijke experiment (bijvoorbeeld, 0.001 in plaats van 0.,01), hoe waarschijnlijker het een grotere afstand van de p-waarde van het P-waardegemiddelde vertegenwoordigt, wat een verhoogde regressie tot het gemiddelde impliceert.dit alles betekent dat binaire beslissingen, gebaseerd op p-waarden, over afwijzing of aanvaarding van hypothesen, over de sterkte van het bewijs (Fisher, 1925, 1973), of over de ernst van de test (Mayo, 1996), onbetrouwbare beslissingen zullen zijn. Dit zou een goede reden kunnen zijn om helemaal geen p-waarden te gebruiken, of in ieder geval om ze niet te gebruiken voor het nemen van beslissingen over het al dan niet beoordelen van wetenschappelijke hypothesen als juist (Amrhein et al., 2018).,
foutenpercentages en variabele Alfaniveaus
een ander nadeel van het gebruik van een bepaald alfaniveau voor publicatie is dat het relatieve belang van type I-en type II-fouten kan verschillen tussen studies binnen of tussen gebieden en onderzoekers (Trafimow en Earp, 2017). Het instellen van een deken niveau van ofwel 0,05 of 0,005, of iets anders, dwingt onderzoekers om te doen alsof het relatieve belang van type I en type II fouten constant is. Benjamin et al. (2018) probeer hun aanbeveling te rechtvaardigen om te verminderen naar de 0.,005 niveau door te wijzen op een paar gebieden van de wetenschap die zeer lage alfaniveaus gebruiken, maar deze observatie is net zo consistent met het idee dat een deken niveau over de wetenschap ongewenst is. En er zijn goede redenen waarom variatie tussen velden en onderwerpen te verwachten is: een breed scala aan factoren kan het relatieve belang van type I en type II fouten beïnvloeden, waardoor elke algemene aanbeveling ongewenst. Deze factoren kunnen de duidelijkheid van de theorie, aanvullende veronderstellingen, praktische of toegepaste zorgen, of experimentele rigor omvatten., Inderdaad, Miller and Ulrich (2016) toonde hoe deze en andere factoren een directe invloed hebben op de uiteindelijke Research payoff. Er is een indrukwekkende literatuur waaruit blijkt dat het moeilijk is om een algemene aanbeveling op te stellen (bijv. Buhl-Mortensen, 1996; Lemons et al., 1997; Lemons and Victor, 2008; Lieberman and Cunningham, 2009; Myhr, 2010; Rice and Trafimow, 2010; Mudge et al., 2012; Lakens et al., 2018).
echter, We beweren niet dat elke onderzoeker haar eigen alfaniveau moet krijgen voor elke studie, zoals aanbevolen door Neyman and Pearson (1933) en Lakens et al., (2018), want dat heeft ook problemen (Trafimow en Earp, 2017). Bijvoorbeeld, met variabele drempels, blijven veel oude problemen met significantie testen onopgelost, zoals de problemen van regressie naar het gemiddelde van p-waarden, inflatie van effect maten (de “winner’ s curse,” zie hieronder), selectieve rapportage en publicatie bias, en het algemene nadeel van het forceren van beslissingen te snel in plaats van het overwegen van cumulatief bewijs over experimenten. In view of all the uncertainty around statistical inference (Greenland, 2017, 2018; Amrhein et al.,, 2018), betwijfelen we sterk dat we met succes foutenpercentages zouden kunnen “beheersen” als we ons alfaniveau en andere beslissingen voorafgaand aan een studie zouden rechtvaardigen, zoals Lakens et al. (2018) lijken te suggereren in hun commentaar op Benjamin et al. (2018). Niettemin, Lakens et al. (2018) concluderen dat “de term ‘statistisch significant’ niet langer moet worden gebruikt.”We zijn het eens, maar we denken dat significantie testen met een gerechtvaardigde Alfa nog steeds significantie testen, of de term “significantie” wordt gebruikt of niet.,
aangezien zowel algemene als variabele alfaniveaus problematisch zijn, is het verstandig om de statistische significantie niet opnieuw te definiëren, maar om helemaal af te zien van significantietesten, zoals McShane et al. (2018) en Amrhein and Greenland (2018), twee andere opmerkingen aan Benjamin et al. (2018).
Defining Replicability
nog een ander nadeel heeft betrekking op wat Benjamin et al. (2018) aangeprezen als het belangrijkste voordeel van hun voorstel, dat gepubliceerde bevindingen meer repliceerbaar zal zijn met behulp van de 0,005 dan de 0,05 alfaniveau., Dit hangt af van wat wordt bedoeld met “repliceren” (zie Lykken, 1968, voor sommige definities). Als men voor de oorspronkelijke studie en de replicatiestudie op hetzelfde alfaniveau aandringt, dan zien we geen reden om aan te nemen dat er meer succesvolle replicaties zullen zijn met behulp van het 0,005 niveau dan met behulp van het 0,05 niveau. In feite, de statistische regressieargument eerder gemaakt suggereert dat de regressiekwestie wordt nog erger gemaakt met behulp van 0.005 dan met behulp van 0.05. Alternatief, als Benjamin et al. (2018) lijken te suggereren, men zou kunnen gebruiken 0.005 voor de oorspronkelijke studie en 0.05 voor de replicatie studie., In dit geval zijn we het erover eens dat de combinatie van 0,005 en 0,05 minder mislukte replicaties zal veroorzaken dan de combinatie van 0,05 en 0,05 voor respectievelijk de initiële en replicatiestudies. Dit komt echter tegen een hoge prijs in willekeur. Stel dat twee studies worden uitgevoerd bij respectievelijk p < 0,005 en p < 0,05. Dit zou tellen als een succesvolle replicatie. Stel daarentegen dat de twee onderzoeken respectievelijk p < 0,05 en p < 0,005 bedragen., Alleen de tweede studie zou tellen, en de combinatie zou niet kwalificeren als een succesvolle replicatie. Aandringen dat het instellen van een cut-off van 0.005 maakt onderzoek meer repliceerbaar zou veel meer specificiteit met betrekking tot hoe repliceerbaarheid conceptualiseren.
bovendien zien we geen enkele replicatie succes of mislukking als definitief. Als men een sterk argument wil maken voor succes of mislukking van replicatie, zijn meerdere replicatiepogingen wenselijk. Zoals blijkt uit recente succesvolle replicatiestudies in cognitieve psychologie (Zwaan et al.,, 2017) en sociale wetenschappen (Mullinix et al., 2015), zullen de kwaliteit van de theorie en de mate waarin aan de modelaannames wordt voldaan van grote invloed zijn op de repliceerbaarheid.
het in twijfel trekken van de veronderstellingen
de discussie tot nu toe is onder het voorwendsel dat de veronderstellingen die ten grondslag liggen aan de interpretatie van p-waarden waar zijn. Maar hoe waarschijnlijk is dit? Berk en Freedman (2003) hebben een sterk argument gemaakt dat de veronderstellingen van willekeurige en onafhankelijke bemonstering van een populatie zelden waar zijn., De problemen zijn bijzonder opvallend in de klinische wetenschappen, waar de valsheid van de veronderstellingen, evenals de verschillen tussen statistische en klinische significantie, zijn bijzonder duidelijk en dramatisch (Bhardwaj et al., 2004; Ferrill et al., 2010; Fethney, 2010; Page, 2014). Statistische tests testen echter niet alleen hypothesen, maar talloze aannames en de hele omgeving waarin onderzoek plaatsvindt (Groenland, 2017, 2018; Amrhein et al., 2018)., Het probleem van waarschijnlijke valse veronderstellingen, in combinatie met de andere reeds besproken problemen, maakt het illusoir vergaren van waarheid uit p-waarden, of uit enige andere statistische methode, nog dramatischer.
the Population Effect Size
laten we doorgaan met de significantie en replicatieproblemen, waarbij we terugkeren naar de pretentie dat modelaannames juist zijn, terwijl we in gedachten houden dat dit onwaarschijnlijk is. Beschouw dat als zaken nu staan met behulp van tests van betekenis met de 0.,De omvang van het effect van de populatie speelt een belangrijke rol zowel bij het verkrijgen van statistische significantie (al het andere is gelijk, de omvang van het effect van de steekproef zal groter zijn als de omvang van het effect van de populatie groter is) als bij het verkrijgen van statistische significantie tweemaal voor een succesvolle replicatie. Overschakelen naar de 0.005 cut-off zou het belang van de omvang van het effect van de populatie niet verminderen, en zou het belang ervan vergroten, tenzij de steekproefgrootte aanzienlijk groter was dan die welke momenteel worden gebruikt. En er is goede reden om af te wijzen dat de repliceerbaarheid moet afhangen van de omvang van het effect van de populatie., Om dit snel te zien, overweeg dan een van de belangrijkste wetenschappelijke experimenten aller tijden, door Michelson en Morley (1887). Ze gebruikten hun interferometer om te testen of het heelal gevuld is met een luminifereuze ether die het mogelijk maakt dat licht van de sterren naar de aarde reist. Hun steekproef effect grootte was zeer klein, en natuurkundigen accepteren dat de populatie effect grootte nul is omdat er geen luminiferous ether. Met behulp van traditionele testen van betekenis met een 0.05 of 0.,005 cutoff, het repliceren van Michelson en Morley zou problematisch zijn (zie Sawilowsky, 2003, voor een bespreking van dit experiment in de context van hypothese testen). En toch beschouwen natuurkundigen het experiment als zeer repliceerbaar (zie ook Meehl, 1967). Elk voorstel met P-waarde-afwijkingscriteria dwingt de replicatiekans te beïnvloeden door de omvang van het populatieeffect, en moet daarom worden afgewezen als we het idee accepteren dat de repliceerbaarheid niet afhankelijk mag zijn van de omvang van het populatieeffect.
bovendien, met een alfaniveau van 0.,005, zouden grote effectgroottes belangrijker zijn voor publicatie, en onderzoekers zouden veel meer naar “voor de hand liggende” onderzoek kunnen leunen dan naar het testen van creatieve ideeën waar er meer risico is op kleine Effecten en p-waarden die niet voldoen aan de 0,005 bar. Zeer waarschijnlijk, een reden nul resultaten zijn zo moeilijk te publiceren in wetenschappen zoals psychologie is omdat de traditie van het gebruik van p-waarde cutoffs is zo ingebakken. Het zou nuttig zijn om deze traditie te beëindigen.,
nauwkeurigheid van gepubliceerde Effectgroottes
Het is wenselijk dat gepubliceerde feiten in wetenschappelijke literatuur de werkelijkheid nauwkeurig weergeven. Overweeg opnieuw de regressie kwestie. Hoe strenger het niveau van het criterium voor publicatie, Hoe meer afstand Er is van een bevinding die het criterium passeert tot het gemiddelde, en dus is er een toenemend regressieeffect. Zelfs bij de 0.,05 alpha-niveau, onderzoekers hebben lang erkend dat gepubliceerde effect maten waarschijnlijk niet de realiteit weerspiegelen, of in ieder geval niet de realiteit die zou worden gezien als er veel replica ‘ s van elk experiment en alle werden gepubliceerd (zie Briggs, 2016; Grice, 2017; Hyman, 2017; Kline, 2017; Locascio, 2017a,b; Marks, 2017 voor een recente bespreking van dit probleem). Onder redelijke steekproefgroottes en redelijke populatie-effectgroottes zijn het de abnormaal grote steekproefeffectgroottes die resulteren in p-waarden die voldoen aan het 0,05-niveau, of de 0.,005 niveau, of een ander alfaniveau, zoals duidelijk is uit het oogpunt van statistische regressie. En met typisch lage steekproefgroottes zijn statistisch significante effecten vaak overschattingen van populatieeffectgroottes, wat “effectgrootte inflatie”, “waarheidsinflatie” of “winner’ s curse” wordt genoemd (Amrhein et al., 2017). De overschatting van de effectgrootte werd empirisch aangetoond in de Open Science Collaboration (2015), waar de gemiddelde effectgrootte in de replicatiecohort van studies drastisch werd verminderd van de gemiddelde effectgrootte in de oorspronkelijke cohort (van 0,403 naar 0,197)., Overstappen naar een strengere 0.005 cut-off zou resulteren in nog ergere effectgrootte overschatting (Button et al., 2013; Amrhein and Greenland, 2018). Het belang van gepubliceerde effectgroottes die de populatieeffectgroottes nauwkeurig weergeven, is in tegenspraak met het gebruik van drempelcriteria en significantietests op elk alfaniveau.
steekproefgrootte en alternatieven voor Significantietesten
we benadrukken dat replicatie grotendeels afhangt van de steekproefgrootte, maar er zijn factoren die interfereren met onderzoekers die de grote steekproefgrootte gebruiken die nodig is voor een goede bemonsteringsnauwkeurigheid en repliceerbaarheid., In aanvulling op de voor de hand liggende kosten van het verkrijgen van grote steekproefgrootte, kan er een onderappreciation van hoeveel steekproefgrootte zaken (vankov et al., 2014), van het belang van prikkels om nieuwheid te bevoordelen boven repliceerbaarheid (Nosek et al., 2012) en van een wijdverbreide misvatting dat de aanvulling van p-waarden repliceerbaarheid meet (Cohen, 1994; Thompson, 1996; Greenland et al., 2016). Een focus op steekproefgrootte suggereert een alternatief voor significantie testen., Trafimow (2017; Trafimow and MacDonald, 2017) stelde een procedure als volgt voor: de onderzoeker specificeert hoe dicht zij de steekproefstatistieken wenst te zijn bij hun overeenkomstige populatie parameters, en de gewenste kans om zo dichtbij te zijn. De vergelijkingen van Trafimow kunnen worden gebruikt om de benodigde steekproefgrootte te verkrijgen om aan deze dichtheidsspecificatie te voldoen., De onderzoeker verkrijgt dan de nodige steekproefgrootte, berekent de beschrijvende statistieken, en neemt ze als nauwkeurige schattingen van de populatie parameters (voorlopig op nieuwe gegevens, natuurlijk; een optimale manier om betrouwbare schatting te verkrijgen is via robuuste methoden, zie Huber, 1972; Tukey, 1979; Rousseeuw, 1991; Portnoy and He, 2000; Erceg-Hurn et al., 2013; Field and Wilcox, 2017). Soortgelijke methoden bestaan al lang, waarbij de steekproefgrootte is gebaseerd op de gewenste maximale breedte voor betrouwbaarheidsintervallen.,
Deze nabijheid procedure benadrukt (a) het bepalen van wat nodig is om te geloven dat het monster statistieken zijn goede schattingen van de bevolking van de parameters voor het verzamelen van gegevens plaats van achteraf, en (b) het verkrijgen van een voldoende grote steekproef te kunnen vertrouwen dat de verkregen steekproef statistieken zijn echt binnen bepaalde afstanden van de overeenkomstige bevolking parameters. De procedure bevordert ook niet de vertekening van de publicatie, omdat er geen grens is voor publicatiebesluiten., En de dichtheidsprocedure is niet hetzelfde als de traditionele machtsanalyse: Ten eerste is het doel van de traditionele machtsanalyse om de steekproefgrootte te vinden die nodig is om een goede kans te hebben op het verkrijgen van een statistisch significante p-waarde. Ten tweede wordt de traditionele vermogensanalyse sterk beïnvloed door de verwachte effectgrootte, terwijl de dichtheidsprocedure niet wordt beïnvloed door de verwachte effectgrootte onder normale (Gaussiaanse) modellen.
het grotere punt is dat er creatieve alternatieven voor significantie testen zijn die het probleem van de steekproefgrootte veel directer aanpakken dan significantie testen doet., De “statistical toolbox” (Gigerenzer and Marewski, 2015) omvat verder bijvoorbeeld betrouwbaarheidsintervallen (die eerder moeten worden hernoemd en worden gebruikt als “compatibiliteitsintervallen”—zie Amrhein et al., 2018; Groenland, 2018), equivalentietests, p-waarden als continue metingen van weerlegbaar bewijs tegen een model (Groenland, 2018), waarschijnlijkheidsratio ‘ s, Bayesiaanse methoden of informatiecriteria. En in productie-of kwaliteitscontrolesituaties kunnen ook Neyman-Pearson-beslissingen zinvol zijn (Bradley and Brand, 2016).,
maar voor wetenschappelijke verkenning zou geen van deze tools de nieuwe magische methode moeten worden die duidelijke mechanische antwoorden geeft (Cohen, 1994), omdat elk selectiecriterium onzekerheid zal negeren ten gunste van binaire besluitvorming en dus dezelfde problemen zal veroorzaken als die veroorzaakt door significantietesten. Het gebruik van een drempel voor de Bayes factor, bijvoorbeeld, zal resulteren in een soortgelijk dilemma als met een drempel voor de p-waarde: zoals Konijn et al. (2015) stelde, “God zou houden van een Bayes factor van 3.01 bijna zoveel als een Bayes factor van 2.99.,”
ten slotte zou de gevolgtrekking niet gebaseerd moeten zijn op afzonderlijke studies (Neyman and Pearson, 1933; Fisher, 1937; Greenland, 2017), noch op replicaties uit hetzelfde lab, maar op cumulatief bewijs uit meerdere onafhankelijke studies. Het is wenselijk om nauwkeurige schattingen te verkrijgen in deze studies, maar een belangrijker doel is het elimineren van publicatiebias door het opnemen van brede betrouwbaarheidsintervallen en kleine effecten in de literatuur, zonder welke het cumulatieve bewijs zal worden vertekend (Amrhein et al., 2017, 2018; Amrhein en Groenland, 2018)., Langs deze lijnen, Briggs (2016) pleit voor het verlaten van parameter-gebaseerde gevolgtrekking en het aannemen van puur voorspellende, en daarom verifieerbare, kansmodellen, en Groenland (2017) ziet “een dringende noodzaak om weg te komen van inferentiële statistieken en hew nauwer aan beschrijvingen van studieprocedures, gegevensverzameling , en de resulterende gegevens.”
conclusie
Het lijkt passend om af te sluiten met het fundamentele probleem dat ons vanaf het begin heeft beziggehouden., Moeten p-waarden en P-waardedrempels, of een ander statistisch instrument, worden gebruikt als het belangrijkste criterium voor het nemen van publicatiebeslissingen, of beslissingen over het aanvaarden of afwijzen van hypothesen? Het loutere feit dat onderzoekers zich bezighouden met replicatie, maar het is geconceptualiseerd, wijst op een appreciatie dat afzonderlijke studies zelden definitief zijn en zelden een definitieve beslissing rechtvaardigen., Bij het evalueren van de sterkte van het bewijs, geavanceerde onderzoekers overwegen, op een toegegeven subjectieve manier, theoretische overwegingen zoals omvang, verklarende breedte, en voorspellende kracht; de waarde van de hulp veronderstellingen die niet-observationele termen in theorieën verbinden met observationele termen in empirische hypothesen; de sterkte van het experimentele ontwerp; en implicaties voor toepassingen. Om dit alles neer te zetten op een binaire beslissing gebaseerd op een p-waarde drempel van 0,05, 0,01, 0,005, of iets anders, is niet acceptabel.,
Auteursbijdragen
alle genoemde auteurs hebben een directe bijdrage aan het document geleverd of de inhoud ervan goedgekeurd en goedgekeurd voor publicatie.
belangenconflict verklaring
FK-N was in dienst van Oikostat GmbH. GM is werkzaam geweest als consultant voor Janssen Research and Development, LLC.
de andere auteurs verklaren dat het onderzoek werd uitgevoerd zonder enige commerciële of financiële relatie die als een potentieel belangenconflict kon worden opgevat.,
Dankbetuigingen
Wij danken Sander Greenland en Rink Hoekstra voor commentaar en discussies. MG erkent steun van VEGA 2/0047/15 subsidie. RvdS werd ondersteund door een subsidie van de Nederlandse Organisatie voor wetenschappelijk onderzoek: NWO-VIDI-45-14-006. Publicatie werd financieel ondersteund door subsidie 156294 van de Zwitserse National Science Foundation aan VA.
Bradley, M. T., and Brand, A. (2016). Significantie testen heeft een taxonomie nodig: of hoe de Fisher, Neyman-Pearson controverse resulteerde in de onvruchtbare staart kwispelen met de meethond. Psychol. Rapport 119, 487-504., doi: 10.1177 / 0033294116662659
PubMed Abstract | CrossRef Full Text/Google Scholar
Briggs, W. M. (2016). Onzekerheid: de ziel van modellering, waarschijnlijkheid en Statistiek. New York, NY: Springer.
Google Scholar
Cohen, J. (1994). De aarde is rond (p < 0,05). Is. Psychol. 49, 997–1003.
Google Scholar
Fisher, R. A. (1925). Statistical Methods for Research Workers, 1st Edn. Oliver en Boyd.
Fisher, R. A. (1937)., The Design of Experiments, 2nd Edn. Oliver en Boyd.
Fisher, R. A. (1973). Statistical Methods and Scientific Inference, 3rd Edn. London: Macmillan.
Mayo, D. (1996). Fouten en de groei van experimentele kennis. Chicago, IL: The University Of Chicago Press.
Google Scholar
Melton, A. (1962). Redactioneel. J. Exp. Psychol. 64, 553–557. doi: 10.1037/h0045549
CrossRef Full Text
Open Science Collaboration (2015). Het schatten van de reproduceerbaarheid van psychologische wetenschap., Wetenschap 349: aac4716. doi: 10.1126 / wetenschap.aac4716
CrossRef Full Text
Page, P. (2014). Beyond statistical significance: klinische interpretatie van revalidatieonderzoekliteratuur. Int. J. Sports Phys. Ther. 9:72.
PubMed Abstract / Google Scholar
Thompson, B. (1996). Aera redactioneel beleid met betrekking tot statistische significantie testen: drie voorgestelde hervormingen. Onderwijs. Res. 25, 26-30. doi: 10.2307 / 1176337
CrossRef Full Text / Google Scholar
Trafimow, D. (2017)., Het gebruik van de vertrouwenscoëfficiënt om de filosofische overstap te maken van a posteriori naar a priori inferentiële statistieken. Onderwijs. Psychol. Meas. 77, 831–854. doi: 10.1177 / 0013164416667977
CrossRef Full Text / Google Scholar