många forskare har kritiserat nollhypotesen betydelse testning, även om många har försvarat det också (se Balluerka et al., 2005, för en översyn). Ibland rekommenderas att alfa-nivån reduceras till ett mer konservativt värde för att sänka typ i-felfrekvensen. Melton (1962), redaktör för Journal of Experimental Social Psychology från 1950-1962, gynnade till exempel en alfa-nivå på 0,01 över den typiska 0,05 alfa-nivån. Mer nyligen, Benjamin et al., (2018) rekommenderas att flytta till 0.005-i överensstämmelse med Meltons kommentar att även 0.01-nivån kanske inte är ”tillräckligt imponerande” för att motivera publicering (s. 554). Dessutom Benjamin et al. (2018) föreskrev att 0.005 alpha-nivån skulle vara för nya resultat men var vag om vad man ska göra med resultat som inte är nya. Även om det inte nödvändigtvis stöder signifikanstestning som det föredragna inferentiella statistiska förfarandet (många av författarna föredrar tydligen bayesiska förfaranden), Benjamin et al. (2018) hävdade att använda en 0.,005 cutoff skulle fixa mycket av vad som är fel med betydelse testning. Tyvärr, som vi kommer att visa, kan problemen med signifikanstester inte vara viktigare mildrade bara genom att ha ett mer konservativt avvisningskriterium, och vissa problem förvärras genom att anta ett mer konservativt kriterium.
Vi börjar med några påståenden från Benjamin et al. (2018). Till exempel skrev de ” … att ändra p-värdetröskeln är enkel, anpassar sig till den utbildning som utförs av många forskare och kan snabbt uppnå bred acceptans.,”Om signifikanstestning-vid någon p-värdetröskel-är lika bristfällig som vi kommer att behålla det är (Se även Amrhein et al., 2017; Grönland, 2017), dessa skäl är helt klart otillräckliga för att motivera att man bara ändrar avskärningen. Tänk på ett annat påstående: ”den nya signifikanströskeln hjälper forskare och läsare att förstå och kommunicera bevis mer exakt.”Men om forskare har förståelse och kommunikationsproblem med en 0,05 tröskel är det oklart hur man använder en 0,005 tröskel kommer att eliminera dessa problem., Och överväga ännu ett påstående: ”författare och läsare kan själva ta initiativet genom att beskriva och tolka resultaten mer lämpligt mot bakgrund av den nya föreslagna definitionen av statistisk betydelse.”Återigen är det inte klart hur antagandet av en 0,005 tröskel gör det möjligt för författare och läsare att ta initiativet när det gäller bättre datatolkning. Således, även före en diskussion om våra huvudargument, finns det anledning för läsaren att vara misstänksam mot förhastade påståenden utan empiriskt stöd.,
med ovanstående ur vägen, anser att ett grundläggande problem med tester av betydelse är att målet är att avvisa en nollhypotes. Detta mål verkar kräva-om man är en Bayesian – att den bakre sannolikheten för nollhypotesen ska vara låg med tanke på det erhållna resultatet. Men p-värdet man erhåller är sannolikheten för upptäckten och av mer extrema fynd, med tanke på att nollhypotesen och alla andra antaganden om modellen var korrekta (Grönland et al.,, 2016; Grönland, 2017), och man skulle behöva göra en ogiltig invers inferens för att dra en slutsats om sannolikheten för nollhypotesen med tanke på upptäckten. Och om man är en frequentist, finns det inget sätt att korsa det logiska gapet från sannolikheten för upptäckten och av mer extrema fynd, med tanke på nollhypotesen, till ett beslut om huruvida man ska acceptera eller avvisa nollhypotesen (Briggs, 2016; Trafimow, 2017). Vi accepterar att, genom frequentist logic, sannolikheten för ett typ i-fel verkligen är lägre om vi använder en 0.005 cutoff för p än en 0.05 cutoff, allt annat är lika., Vi accepterar också det bayesiska argumentet av Benjamin et al. (2018) att nollhypotesen är mindre sannolikt om p = 0.005 än om p = 0.05, allt annat är lika. Slutligen erkänner vi att Benjamin et al. (2018) tillhandahöll en tjänst för vetenskap genom att ytterligare stimulera debatten om signifikanstestning. Men det finns viktiga frågor Benjamin et al. (2018) verkar inte ha övervägt, diskuteras i följande avsnitt.,
Regression och Replikerbarhet
Trafimow och Earp (2017) argumenterade mot det allmänna begreppet att fastställa en alfanivå för att fatta beslut om att avvisa eller inte avvisa nollhypoteser, och argumenten behåller sin kraft även om alfanivån reduceras till 0,005. På vissa sätt förvärrar minskningen saker. Ett problem är att p-värden har provtagningsvariabilitet, liksom annan statistik (Cumming, 2012)., Men p-värdet är speciellt eftersom det är utformat för att se ut som rent ljud om nollhypotesen och alla andra modellantaganden är korrekta, för i så fall fördelas p-värdet jämnt på (Grönland, 2018). Under en alternativ hypotes skiftas dess fördelning nedåt, med sannolikheten för att p faller under den valda avstängningen är testets kraft. Eftersom den faktiska effekten av typiska studier inte är så hög, när alternativet är korrekt kommer det i stor utsträckning att vara en fråga om tur om det provtagna p-värdet ligger under den valda alfa-nivån., När, som ofta är fallet, är kraften mycket under 50% (Smaldino och mcelreath, 2016), är forskaren osannolikt att ompröva ett p-värde under en signifikansgräns vid replikering, eftersom det kan finnas många fler p-värden över än under tröskeln i P-värdefördelningen (Goodman, 1992; Senn, 2002; Halsey et al., 2015). Detta problem blir värre när cutoff sänks, eftersom strömmen sjunker med cutoff för en konstant provstorlek.,
även om man inte använde en cutoff, föreslår fenomenet regression till medelvärdet att p-värdet som erhållits i ett replikationsexperiment sannolikt kommer att regressera till vad det genomsnittliga p-värdet skulle vara om många replikationer utfördes. Hur mycket regression bör ske? När nollhypotesen är felaktig beror det på hur variabel punktskattningen och därmed p-värdena är.
dessutom resulterar variabiliteten hos p-värden i dålig korrelation mellan replikationer., Baserat på data som placerats online av Open Science Collaboration (2015; https://osf.io/fgjvw) beräknade Trafimow och de Boer (inlämnad) en korrelation på endast 0,004 mellan p-värden som erhölls i den ursprungliga kohorten av studier med p-värden som erhölls i replikeringskohorten, jämfört med den förväntade korrelationen av noll om alla nollhypoteser och modeller som användes för att beräkna P-värdena var korrekta (och därmed var alla p-värdena jämnt fördelade).,
det finns flera möjliga orsaker till den låga korrelationen, inklusive att de flesta av de studerade föreningarna faktiskt kan ha varit nästan null, så att p-värdena huvudsakligen förblev en funktion av buller och därmed en nära nollkorrelation bör förväntas., Men även om många eller de flesta av föreningarna var långt ifrån null, vilket förskjuter p-värdena nedåt mot noll och skapar en positiv korrelation på replikering, kommer den korrelationen att förbli låg på grund av inte bara det stora slumpmässiga felet i p-värden utan också på grund av ofullkomlig replikeringsmetod och det olinjära förhållandet mellan p-värden och effektstorlekar (”korrigering” korrelationen för dämpning på grund av begränsning av intervall, i den ursprungliga kohorten av studier, ökar korrelationen till 0,01, som fortfarande är låg)., Även om de flesta av de testade nollhypoteserna var falska, kunde den låga P-värdereplikerbarheten som framgår av det öppna Vetenskapssamarbetet delvis tillskrivas publiceringens bias orsakad av att ha ETT publiceringskriterium baserat på p-värden (Locascio, 2017a; Amrhein och Greenland, 2018)., Men om man vill göra en sådan tilldelning, även om den kan ge en motivering för att använda p-värden i ett hypotetiskt vetenskapligt universum där p-värden från falska nulls är mer replikerbara på grund av brist på publikationsfördelning, ger tilldelningen ännu en viktig anledning att undvika någon form av publiceringskriterier baserade på p-värden eller andra statistiska resultat (Amrhein och Grönland, 2018).,
således har det erhållna p-värdet i en originalstudie lite att göra med det p-värde som erhållits i ett replikationsexperiment (vilket är precis vad den faktiska teorin om p-värden säger borde vara fallet). Den bästa förutsägelsen skulle vara ett p-värde för replikationsexperimentet som ligger mycket närmare medelvärdet av p-värdefördelningen än det p-värde som erhölls i det ursprungliga experimentet. Under någon hypotes, desto lägre p-värdet publiceras i det ursprungliga experimentet (t. ex. 0,001 snarare än 0.,01), desto mer sannolikt representerar det ett större avstånd av p-värdet från P-värdemedelvärdet, vilket innebär ökad regression till medelvärdet.
allt detta innebär att binära beslut, baserat på p-värden, om avslag eller godkännande av hypoteser, om bevisets styrka (Fisher, 1925, 1973) eller om testets svårighetsgrad (Mayo, 1996), kommer att vara opålitliga beslut. Detta skulle kunna hävdas vara en bra anledning att inte använda p-värden alls, eller åtminstone inte använda dem för att fatta beslut om huruvida man ska bedöma vetenskapliga hypoteser som korrekta (Amrhein et al., 2018).,
felfrekvenser och varierande Alfanivåer
en annan nackdel med att använda en viss alfanivå för publicering är att den relativa betydelsen av typ i-och typ II-fel kan skilja sig mellan studier inom eller mellan områden och forskare (Trafimow och Earp, 2017). Att ställa in en filtnivå på antingen 0,05 eller 0,005, eller något annat, tvingar forskare att låtsas att den relativa betydelsen av typ i-och typ II-fel är konstant. Benjamin et al. (2018) försök att motivera sin rekommendation att minska till 0.,005 nivå genom att påpeka några områden av vetenskap som använder mycket låga alfa nivåer, men denna observation är lika förenligt med tanken att en filt nivå över vetenskapen är oönskad. Och det finns goda skäl till varför variation över fält och ämnen kan förväntas: en mängd olika faktorer kan påverka den relativa betydelsen av typ i och typ II-fel, vilket gör någon generell rekommendation oönskad. Dessa faktorer kan innefatta teoriens klarhet, hjälpantaganden, praktiska eller tillämpade problem eller experimentell rigor., Faktum är att Miller och Ulrich (2016) visade hur dessa och andra faktorer har en direkt inverkan på den slutliga forskningsutbetalningen. Det finns en imponerande litteratur som intygar svårigheterna med att fastställa en allmän nivå rekommendation (t.ex. Buhl-Mortensen, 1996; citroner et al., 1997; Citroner och Victor, 2008; Lieberman och Cunningham, 2009; Myhr, 2010; Ris och Trafimow, 2010; Mudge et al., 2012; Lakens et al., 2018).
Vi hävdar dock inte att varje forskare ska få ställa in sin egen alfanivå för varje studie, som rekommenderas av Neyman och Pearson (1933) och Lakens et al., (2018), eftersom det också har problem (Trafimow och Earp, 2017). Till exempel, med variabla tröskelvärden, är många gamla problem med signifikanstestning fortfarande olösta, till exempel problemen med regression till medelvärdet av p-värden, inflation av effektstorlekar (”vinnarens förbannelse”, se nedan), selektiv rapportering och publicering bias och den allmänna nackdelen med att tvinga beslut för snabbt snarare än att överväga kumulativa bevis över experiment. Med tanke på all osäkerhet kring statistisk inferens (Grönland, 2017, 2018; Amrhein et al.,, 2018), Vi tvivlar starkt på att vi framgångsrikt kunde ”kontrollera” felfrekvenser om vi bara skulle motivera vår alfa-nivå och andra beslut före en studie, som Lakens et al. (2018) verkar föreslå i sin kommentar till Benjamin et al. (2018). Ändå, Lakens et al. (2018) drar slutsatsen att ”termen” statistiskt signifikant ” inte längre bör användas.”Vi är överens, men vi tror att signifikanstestning med en motiverad alfa fortfarande är signifikanstestning, oavsett om termen ”betydelse” används eller inte.,
med tanke på att filt-och variabla alfanivåer båda är problematiska är det förnuftigt att inte omdefiniera statistisk betydelse, utan att helt och hållet avstå från signifikanstestning, vilket McShane et al föreslog. (2018) och Amrhein och Grönland (2018), två andra kommentarer till Benjamin et al. (2018).
definiera Replikerbarhet
ännu en nackdel avser vad Benjamin et al. (2018) tippad som den största fördelen med deras förslag, kommer de publicerade resultaten att vara mer replikerbara med hjälp av 0.005 än 0.05 alpha-nivån., Detta beror på vad som menas med ”replikera” (se Lykken, 1968, för vissa definitioner). Om man insisterar på samma alfa-nivå för den ursprungliga studien och replikationsstudien ser vi ingen anledning att tro att det kommer att bli mer framgångsrika replikationer med 0.005-nivån än att använda 0.05-nivån. Faktum är att det statistiska regressionsargumentet som gjordes tidigare tyder på att regressionsfrågan görs ännu värre med hjälp av 0.005 än att använda 0.05. Alternativt, som Benjamin et al. (2018) verkar föreslå att man kan använda 0.005 för den ursprungliga studien och 0.05 för replikationsstudien., I det här fallet håller vi med om att kombinationen av 0,005 och 0,05 kommer att skapa färre misslyckade replikationer än kombinationen av 0,05 och 0,05 för de första respektive replikationsstudierna. Detta kommer dock till ett högt pris i godtycklighet. Antag att två studier kommer in på p< 0.005 och p< 0.05. Detta skulle räknas som en framgångsrik replikering. Antag däremot att de två studierna kommer in på p< 0.05 och p< 0.005., Endast den andra studien skulle räknas, och kombinationen skulle inte kvalificera sig som indikerar en framgångsrik replikering. Att insistera på att sätta en cutoff på 0.005 gör forskningen mer replikerbar skulle kräva mycket mer specificitet med avseende på hur man konceptualiserar replikerbarhet.
dessutom ser vi inte en enda replikering framgång eller misslyckande som definitiv. Om man vill göra ett starkt fall för replikering framgång eller misslyckande, flera replikering försök är önskvärda. Som framgår av de senaste framgångsrika replikationsstudierna i kognitiv psykologi (Zwaan et al.,, 2017) och samhällsvetenskap (Mullinix et al., 2015), teoriens kvalitet och graden av modellantaganden uppfylls kommer viktigare att påverka replikerbarheten.
ifrågasätta antagandena
diskussionen hittills är under förevändning att de antaganden som ligger till grund för tolkningen av p-värden är sanna. Men hur troligt är det här? Berk och Freedman (2003) har gjort ett starkt fall att antagandena om slumpmässig och oberoende provtagning från en befolkning sällan är sanna., Problemen är särskilt framträdande i de kliniska vetenskaperna, där antagandena, liksom skillnaderna mellan statistisk och klinisk betydelse, är särskilt uppenbara och dramatiska (Bhardwaj et al., 2004; Ferrill et al., 2010; Fethney, 2010, Sida, 2014). Men statistiska tester testar inte bara hypoteser utan otaliga antaganden och hela miljön där forskning äger rum (Grönland, 2017, 2018; Amrhein et al., 2018)., Problemet med troliga falska antaganden, i kombination med de andra problem som redan diskuterats, gör den illusoriska inhämtningen av sanning från p-värden, eller från någon annan statistisk metod, ännu mer dramatisk.
storleken på Populationseffekten
låt oss fortsätta med betydelsen och replikeringsproblemen och återgå till förevändningen att modellantagandena är korrekta, samtidigt som vi kommer ihåg att detta är osannolikt. Tänk på att som saker nu står med hjälp av tester av betydelse med 0.,05 kriteriet, populationseffektstorleken spelar en viktig roll både för att erhålla statistisk signifikans (allt annat är lika, proveffektstorleken blir större om populationseffektstorleken är större) och för att erhålla statistisk signifikans två gånger för en framgångsrik replikering. Om man byter till 0,005-brytpunkten skulle inte betydelsen av populationseffektstorleken minska, och det skulle öka dess betydelse om inte urvalsstorlekarna ökade väsentligt från de som för närvarande används. Och det finns goda skäl att avvisa att replikerbarhet bör bero på populationseffektstorleken., För att se detta snabbt, överväga ett av de viktigaste vetenskapsexperimenten genom tiderna, av Michelson och Morley (1887). De använde sin interferometer för att testa om universum är fyllt med en luminiferous eter som tillåter ljus att resa till jorden från stjärnorna. Deras proveffektstorlek var mycket liten, och fysiker accepterar att populationseffektstorleken är noll eftersom det inte finns någon luminiferous eter. Använda traditionella tester av betydelse med antingen en 0,05 eller 0.,005 cutoff, replikering Michelson och Morley skulle vara problematisk (se Sawilowsky, 2003, för en diskussion om detta experiment i samband med hypotesprovning). Och ändå anser fysiker att experimentet är mycket replikerbart (se även meehl, 1967). Varje förslag som innehåller kriterier för avvisande av p-värde tvingar replikationssannolikheten att påverkas av populationseffektstorleken, och så måste avvisas om vi accepterar uppfattningen att replikerbarhet inte bör vara beroende av populationseffektstorlek.
dessutom, med en alfa-nivå på 0.,005, stora effektstorlekar skulle vara viktigare för publicering, och forskare kan luta sig mycket mer mot ”uppenbar” forskning än mot att testa kreativa idéer där det finns mer risk för små effekter och p-värden som inte uppfyller 0.005-fältet. Mycket troligt, en anledning noll resultat är så svårt att publicera i vetenskaper som psykologi är att traditionen att använda p-värde cutoffs är så ingrodd. Det skulle vara fördelaktigt att avsluta denna tradition.,
noggrannhet av publicerade effektstorlekar
det är önskvärt att publicerade fakta i vetenskapliga litteraturer exakt återspeglar verkligheten. Tänk igen regressionsfrågan. Ju strängare kriterienivån för publicering är, desto mer avstånd finns det från ett konstaterande som passerar kriteriet till medelvärdet, och så finns det en ökande regressionseffekt. Även vid 0.,05 alfa-nivå har forskare länge erkänt att publicerade effektstorlekar sannolikt inte återspeglar verkligheten, eller åtminstone inte den verklighet som skulle ses om det fanns många replikationer av varje experiment och alla publicerades (se Briggs, 2016; Grice, 2017; Hyman, 2017; Kline, 2017; Locascio, 2017a,B; Marks, 2017 för en ny diskussion om detta problem). Under rimliga urvalsstorlekar och rimliga populationseffektstorlekar är det de onormalt stora proveffektstorlekarna som resulterar i p-värden som uppfyller 0.05-nivån eller 0.,005 nivå, eller någon annan alfa nivå, vilket är uppenbart ur statistisk regression. Och med typiskt låga provstorlekar är statistiskt signifikanta effekter ofta överskattningar av populationseffektstorlekar, som kallas ”effect size inflation”, ”truth inflation” eller ”winner’ s curse ” (Amrhein et al., 2017). Effektstorleksöverskattning visades empiriskt i Open Science Collaboration (2015), där den genomsnittliga effektstorleken i studiernas replikeringskohort minskade dramatiskt från den genomsnittliga effektstorleken i den ursprungliga kohorten (från 0.403 till 0.197)., Att byta till en strängare 0.005 cutoff skulle leda till ännu sämre effektstorlek överskattning (knapp et al. 2013; för Amrhein och Grönland, 2018). Betydelsen av att ha publicerat effektstorlekar exakt återspeglar populationseffektstorlekar strider mot användningen av tröskelkriterier och signifikanstester, på vilken alfanivå som helst.
provstorlek och alternativ till Signifikanstestning
Vi betonar att replikering till stor del beror på provstorlek, men det finns faktorer som stör forskare som använder de stora provstorlekar som är nödvändiga för god provtagningsprecision och replikerbarhet., Förutom de uppenbara kostnaderna för att erhålla stora urvalsstorlekar kan det finnas en underappreciation av hur mycket provstorlek som är viktigt (Vankov et al., 2014), av vikten av incitament att gynna nyhet över replikerbarhet (Nosek et al., 2012) och av en utbredd missuppfattning att komplementet av p-värden mäter replikerbarhet (Cohen, 1994; Thompson, 1996; Greenland et al., 2016). Ett fokus på provstorlek föreslår ett alternativ till signifikanstestning., Trafimow (2017; Trafimow och MacDonald, 2017) föreslog ett förfarande enligt följande: forskaren anger hur nära Hon vill att provstatistiken ska vara till deras motsvarande populationsparametrar och den önskade sannolikheten att vara så nära. Trafimows ekvationer kan användas för att erhålla den nödvändiga provstorleken för att uppfylla denna närmare specifikation., Forskaren erhåller sedan den nödvändiga provstorleken, beräknar den beskrivande statistiken och tar dem som exakta uppskattningar av befolkningsparametrar (preliminärt på nya data, förstås; ett optimalt sätt att få tillförlitlig uppskattning är via robusta metoder, se Huber, 1972; Tukey, 1979; Rousseeuw, 1991; Portnoy och He, 2000; Erceg-Hurn et al. 2013; för Område och Wilcox, 2017). Liknande metoder har länge funnits där provstorleken är baserad på önskad maximal bredd för konfidensintervall.,
detta närmare förfarande betonar (a) beslutar vad som krävs för att tro att urvalsstatistiken är bra uppskattningar av populationsparametrarna före datainsamling snarare än efteråt, och (b) få en tillräckligt stor provstorlek för att vara säker på att den erhållna provstatistiken verkligen ligger inom specificerade avstånd från motsvarande populationsparametrar. Förfarandet främjar inte heller partiskhet i offentliggörandet, eftersom det inte finns någon nedskärning för beslut om offentliggörande., Och närhetsförfarandet är inte detsamma som traditionell kraftanalys: för det första är målet med traditionell kraftanalys att hitta provstorleken som behövs för att ha en bra chans att få ett statistiskt signifikant p-värde. För det andra påverkas den traditionella effektanalysen starkt av den förväntade effektstorleken, medan närhetsförfarandet inte påverkas av den förväntade effektstorleken under normala (gaussiska) modeller.
den större punkten är att det finns kreativa alternativ till signifikanstestning som konfronterar provstorleksproblemet mycket mer direkt än signifikanstest gör., Den ”statistiska verktygslådan” (Gigerenzer och Marewski, 2015) innehåller ytterligare, till exempel, konfidensintervall (som hellre bör döpas och användas som ”kompatibilitetsintervaller”—se Amrhein et al., 2018; Grönland, 2018), ekvivalenstester, p-värden som kontinuerliga mått på refutationsbevis mot en modell (Grönland, 2018), sannolikhetsförhållanden, Bayesianska metoder eller informationskriterier. Och i tillverknings-eller kvalitetskontrollsituationer kan även Neyman-Pearson-beslut vara meningsfulla (Bradley och Brand, 2016).,
men för vetenskaplig utforskning bör inget av dessa verktyg bli den nya magiska metoden som ger tydliga mekaniska svar (Cohen, 1994), eftersom varje urvalskriterium kommer att ignorera osäkerhet till förmån för binärt beslutsfattande och därmed producera samma problem som de som orsakas av signifikanstestning. Om man till exempel använder ett tröskelvärde för Bayes-faktorn resulterar det i ett liknande dilemma som med ett tröskelvärde för p-värdet: som Konijn et al. (2015) föreslog, ”Gud skulle älska en Bayes faktor 3.01 nästan lika mycket som en Bayes faktor 2.99.,”
slutligen bör inferens inte baseras på enstaka studier alls (Neyman och Pearson, 1933; Fisher, 1937; Greenland, 2017), eller på replikationer från samma labb, men på kumulativa bevis från flera oberoende studier. Det är önskvärt att få exakta uppskattningar i dessa studier, men ett viktigare mål är att eliminera publikationsfördomar genom att inkludera breda konfidensintervall och små effekter i litteraturen, utan vilka de kumulativa bevisen kommer att snedvridas (Amrhein et al., 2017, 2018; Amrhein och Grönland, 2018)., Längs dessa linjer argumenterar Briggs (2016) för att överge parameterbaserad inferens och anta rent prediktiva och därför verifierbara sannolikhetsmodeller och Grönland (2017) ”ett trängande behov av att komma bort från inferentiell statistik och hew närmare beskrivningar av studieförfaranden, datainsamling och de resulterande uppgifterna.”
slutsats
det verkar lämpligt att avsluta med den grundläggande frågan som har varit med oss från början., Bör p-värden och p-värdetrösklar, eller något annat statistiskt verktyg, användas som huvudkriterium för att fatta beslut om offentliggörande, eller beslut om att acceptera eller avvisa hypoteser? Enbart det faktum att forskare är oroade över replikering, men det är konceptualiserat, indikerar en uppskattning att enstaka studier sällan är definitiva och sällan motiverar ett slutgiltigt beslut., Vid utvärdering av styrkan i bevisen anser sofistikerade forskare, på ett visserligen subjektivt sätt, teoretiska överväganden som omfattning, förklarande bredd och prediktiv kraft; värdet av de hjälpantaganden som förbinder ickeobservationella termer i teorier till observationsvillkor i empiriska hypoteser; styrkan i den experimentella designen och konsekvenser för applikationer. Att koka ner allt detta till ett binärt beslut baserat på en p-värdetröskel på 0,05, 0,01, 0,005 eller något annat är inte acceptabelt.,
Författarbidrag
alla listade författare har gjort ett direkt bidrag till papperet eller godkänt dess innehåll och godkänt det för publicering.
intressekonflikt
FK-N användes av Oikostat GmbH. GM har agerat som konsult för Janssen Research and Development, LLC.
de andra författarna förklarar att forskningen genomfördes i avsaknad av kommersiella eller finansiella relationer som kan tolkas som en potentiell intressekonflikt.,
bekräftelser
Vi tackar Sander Greenland och Rink Hoekstra för kommentarer och diskussioner. MG erkänner stöd från VEGA 2/0047/15 bidrag. RvdS stöddes av ett bidrag från den nederländska organisationen för vetenskaplig forskning: NWO-VIDI-45-14-006. – herr talman! Publikationen fick ekonomiskt stöd genom bidrag 156294 från Schweiziska National Science Foundation till VA.
Bradley, M. T. och Brand, A. (2016). Signifikanstestning behöver en taxonomi: eller hur Fisher, Neyman-Pearson kontroversen resulterade i den inferentiella svansen som viftar mäthunden. Psykol. Rep. 119, 487-504., doi: 10.1177/0033294116662659
PubMed Abstrakt | CrossRef Full Text | Google Scholar
Briggs, W. M. (2016). Osäkerhet: själen av modellering, sannolikhet och statistik. Springer.
Google Scholar
Cohen, J. (1994). Jorden är rund (p < 0.05). Är. Psykol. 49, 997–1003.
Google Scholar
Fisher, R. A. (1925). Statistiska metoder för forskare, 1st Edn. Oliver och Boyd.
Fisher, R. A. (1937)., Utformningen av experiment, 2nd Edn. Oliver och Boyd.
Fisher, R. A. (1973). Statistiska metoder och vetenskaplig inferens, 3rd Edn. Macmillan.
Mayo, D. (1996). Fel och tillväxt av experimentell kunskap. Chicago: University of Chicago Press.
Google Scholar
Melton, A. (1962). Redaktionell. J. Exp. Psykol. 64, 553–557. doi: 10.1037/h0045549
CrossRef full Text
Open Science Collaboration (2015). Uppskatta reproducerbarheten av psykologisk vetenskap., Vetenskap 349:aac4716. doi: 10.1126 / vetenskap.Aac4716
CrossRef full Text
sida, P. (2014). Bortom statistisk signifikans: klinisk tolkning av rehabiliteringsforskningslitteratur. Int. J. Sport Phys. Ther. 9:72.
PubMed Abstract/Google Scholar
Thompson, B. (1996). Aera redaktionell politik för statistisk signifikans testning: tre föreslagna reformer. Educ. Res.25, 26-30. doi: 10.2307/1176337
CrossRef Full Text | Google Scholar
Trafimow, D. (2017)., Med hjälp av förtroendekoefficienten för att göra den filosofiska övergången från en posteriori till a priori inferential statistik. Educ. Psykol. Meas. 77, 831–854. doi: 10.1177/0013164416667977
CrossRef Full Text | Google Scholar