Mange forskere har kritiseret nulhypotesen betydning test, selvom mange har forsvaret det også (se Balluerka et al., 2005, til en gennemgang). Nogle gange anbefales det, at alfa-niveauet reduceres til en mere konservativ værdi for at sænke type i-fejlfrekvensen. For eksempel, Melton (1962), redaktør af Journal of Experimental Social Psychology fra 1950-1962, stillede et alpha-niveau på 0,01 over typiske intervaller af 0,05 alpha-niveau. For nylig, Benjamin et al., (2018) anbefalede at skifte til 0.005—i overensstemmelse med Meltons kommentar, at selv 0.01-niveauet måske ikke er “tilstrækkeligt imponerende” til at berettige offentliggørelse (s. 554). Derudover Benjamin et al. (2018) fastsatte, at 0.005 alfa-niveauet skulle være til nye fund, men var vage om, hvad man skal gøre med fund, der ikke er nye. Selvom det ikke nødvendigvis støtter signifikansprøvning som den foretrukne inferentielle statistiske procedure (mange af forfatterne tilsyneladende favoriserer bayesiske procedurer), Benjamin et al. (2018) argumenterede for at bruge en 0.,005 cutoff ville løse meget af, hvad der er galt med signifikanstest. Desværre, som vi vil demonstrere, kan problemerne med signifikansprøver ikke mindskes væsentligt blot ved at have et mere konservativt afvisningskriterium, og nogle problemer forværres ved at vedtage et mere konservativt kriterium.
Vi begynder med nogle krav fra Benjamin et al. (2018). For eksempel skrev de ” … ændring af p-værdigrænsen er enkel, stemmer overens med den uddannelse, der udføres af mange forskere, og kan hurtigt opnå bred accept.,”Hvis signifikanstest – ved en hvilken som helst p—værdi-tærskel-er så dårligt mangelfuld, som vi vil opretholde, er det (se også Amrhein et al., 2017; Grønland, 2017), er disse grunde klart utilstrækkelige til at retfærdiggøre blot at ændre cutoff. Overveje en anden påstand: “Den nye betydning tærskel vil hjælpe forskere og læsere til at forstå og kommunikere beviser mere præcist.”Men hvis forskere har forståelses-og kommunikationsproblemer med en 0,05-tærskel, er det uklart, hvordan brug af en 0,005-tærskel vil eliminere disse problemer., Og overvej endnu en påstand: “forfattere og læsere kan selv tage initiativet ved at beskrive og fortolke resultater mere passende i lyset af den nye foreslåede definition af statistisk betydning.”Igen er det ikke klart, hvordan vedtagelse af en 0, 005-tærskel giver forfattere og læsere mulighed for at tage initiativ med hensyn til bedre datatolkning. Selv før en diskussion af vores hovedargumenter er der derfor grund til, at læseren er mistænksom over for forhastede påstande uden empirisk støtte.,
med det foregående ude af vejen skal du overveje, at et grundlæggende problem med test af betydning er, at målet er at afvise en nulhypotese. Dette mål synes at kræve – hvis man er en Bayesian-at den bageste Sandsynlighed for nulhypotesen skal være lav i betragtning af det opnåede fund. Men den p-værdi, man opnår, er sandsynligheden for fundet og for mere ekstreme fund, da nulhypotesen og alle andre antagelser om modellen var korrekte (Greenland et al.,, 2016; Grønland, 2017), og man bliver nødt til at gøre en ugyldig omvendt Indledning for at drage en konklusion om sandsynligheden for nulhypotesen givet fundet. Og hvis man er en frequentist, der er ingen måde at krydse den logiske forskel fra sandsynligheden for at finde og mere ekstreme resultater, eftersom nulhypotesen, at en beslutning om, hvorvidt man bør acceptere eller afvise nulhypotesen (Briggs, 2016; Trafimow, 2017). Vi accepterer, at ved at frequentist logik, sandsynligheden for en Type i fejl er virkelig lavere, hvis vi bruger en 0.005 cutoff for s end 0,05 cutoff, alt andet lige., Vi accepterer også Bayesian argument Benjamin et al. (2018) at nulhypotesen er mindre sandsynlig, hvis p = 0,005 end hvis p = 0,05, alt andet lige. Endelig anerkender vi, at Benjamin et al. (2018) leverede en service til videnskab ved yderligere at stimulere debatten om signifikanstest. Men der er vigtige spørgsmål Benjamin et al. (2018) synes ikke at have overvejet, diskuteret i de følgende afsnit.,
Regression og Reproduktionsevne
Trafimow og Earp (2017) argumenterede imod den generelle opfattelse af indstilling et alpha-niveau til at træffe beslutninger om at afvise eller ikke afvise nul hypoteser, og de argumenter, der bevarer deres kraft, selv hvis alpha-niveau er reduceret til 0.005. På nogle måder forværrer reduktionen sager. Et problem er, at p-værdier har samplingvariabilitet, ligesom andre statistikker (cumming, 2012)., Men p-værdien er speciel, idet den er designet til at ligne ren støj, hvis nulhypotesen og alle andre modelantagelser er korrekte, for i så fald er p-værdien ensartet fordelt på (Greenland, 2018). Under en alternativ hypotese forskydes dens fordeling nedad, hvor sandsynligheden for, at p falder under den valgte cutoff, er testens kraft. Fordi den faktiske effekt af typiske undersøgelser ikke er særlig høj, når alternativet er korrekt, vil det stort set være et spørgsmål om held, om den samplede p-værdi er under det valgte alfaniveau., Når, som det ofte er tilfældet, at strømmen er langt under 50% (Smaldino og McElreath, 2016), forskeren er usandsynligt, at re-prøve med en p-værdi på under en betydning tærskel ved replikering, da der kan være mange flere p-værdier over end under den tærskel på en p-værdi distribution (Goodman, 1992; Senn, 2002; Halsey et al., 2015). Dette problem bliver værre, da afskæringen sænkes, da strømmen for en konstant prøvestørrelse falder med afskæringen.,
selvom man ikke brugte en cutoff, antyder fænomenet regression til middelværdien, at p-værdien opnået i et replikationseksperiment sandsynligvis vil regressere til, hvad den gennemsnitlige p-værdi ville være, hvis mange replikationer blev udført. Hvor meget regression skal forekomme? Når nulhypotesen er forkert, afhænger det af, hvor variabel punktestimaterne og dermed p-værdierne er.
endvidere resulterer variationen af p-værdier i dårlig korrelation på tværs af replikationer., Baseret på data, der er lagt online af Åben Videnskab Samarbejde (2015; https://osf.io/fgjvw), Trafimow og de Boer (indsendt) beregnet en korrelation af kun 0.004 mellem p-værdier, der er opnået i den oprindelige kohorte studier med p-værdier, der er opnået i replikation kohorte, som i forhold til den forventede korrelation på nul, hvis alle nul-hypoteser og modeller bruges til at beregne p-værdier var korrekte (og dermed alle de p-værdier, der var jævnt fordelt).,
Der er flere mulige årsager til den lave korrelation, herunder at de fleste af de undersøgte foreninger har måske i virkeligheden været næsten nul, så at p-værdier forblev primært en funktion af støj, og dermed en nær-nul-korrelation bør forventes., Men selv om mange eller de fleste af de foreninger, der var langt fra nul, og dermed flytte p-værdier nedad mod nul, og at skabe en positiv korrelation på replikation, at sammenhængen vil forblive lav, ikke kun på grund af den store tilfældige fejl i p-værdier, men også på grund af mangelfuld replikation metode og den ikke-lineære forhold mellem p-værdier og effekt størrelser (“korrigere” den korrelation for dæmpning på grund af begrænsning af udvalg, i den oprindelige kohorte undersøgelser, der øger sammenhængen til 0.01, hvilket stadig er lavt)., Også, hvis de fleste af de testede null hypoteser var falsk, den lave p-værdi replikabilitet som det fremgår af Åben Videnskab Samarbejde kunne tilskrives en del, at offentliggørelsen bias forårsaget af at have en udgivelse kriterium, der er baseret på p-værdier (Locascio, 2017a; Amrhein og Grønland, 2018)., Men hvis man ønsker at gøre sådan en tilskrivelse, selv om det kan give en begrundelse for anvendelse af p-værdier i en hypotetisk videnskabelige univers, hvor p-værdier fra falske nuller er mere gentages på grund af en manglende offentliggørelse bias, tildeling er endnu en vigtig grund til at undgå enhver form for offentliggørelse af kriterier, der bygger på p-værdier eller andre statistiske resultater (Amrhein og Grønland, 2018).,
således har den opnåede p-værdi i en original undersøgelse lidt at gøre med den p-værdi, der er opnået i et replikationseksperiment (hvilket er netop, hvad den faktiske teori om p-værdier siger, bør være tilfældet). Den bedste forudsigelse ville være en p-værdi for replikation eksperiment er langt tættere på gennemsnittet af p-værdi fordeling end til p-værdi opnået i det oprindelige eksperiment. Under enhver hypotese, jo lavere P-værdi offentliggjort i det oprindelige eksperiment (f 0. 0,001 snarere end 0.,01), jo mere sandsynligt repræsenterer det en større afstand af p-værdien fra P-værdien middelværdi, hvilket indebærer øget regression til middelværdien.
Alt dette betyder, at binære beslutninger, som er baseret på p-værdier, om afvisning eller accept af hypoteser, om styrken af de beviser (Fisher, 1925, 1973), eller om sværhedsgraden af testen (Mayo, 1996), vil være upålidelige beslutninger. Dette kunne hævdes at være en god grund til ikke at bruge p-værdier overhovedet, eller i det mindste ikke at bruge dem til at træffe beslutninger om, hvorvidt videnskabelige hypoteser skal bedømmes korrekt (Amrhein et al., 2018).,
Fejl i Priser og Variabel Alpha Niveauer
en Anden ulempe ved at bruge et sæt alfa-niveau for offentliggørelse er, at den relative betydning af Type i og Type II fejl kan være forskellige på tværs af undersøgelser inden for eller mellem områder og forskere (Trafimow og Earp, 2017). Indstilling af et tæppe niveau af enten 0,05 eller 0.005, eller noget andet, tvinger forskerne til at foregive, at den relative betydning af Type i og Type II fejl er konstant. Benjamin et al. (2018) Prøv at retfærdiggøre deres anbefaling om at reducere til 0.,005 niveau ved at påpege et par videnskabelige områder, der bruger meget lave alfaniveauer, men denne observation er lige så konsistent med tanken om, at et tæppeniveau på tværs af videnskaben er uønsket. Og der er gode grunde til, at der kan forventes variation på tværs af felter og emner: en lang række faktorer kan påvirke den relative betydning af type I-og type II-fejl, hvilket gør enhver tæppeanbefaling uønsket. Disse faktorer kan omfatte klarheden i teorien, hjælpeantagelser, praktiske eller anvendte bekymringer, eller eksperimentel strenghed., Faktisk viste Miller og Ulrich (2016), hvordan disse og andre faktorer har direkte indflydelse på den endelige forskningsudbetaling. Der er en imponerende litteratur, der vidner om vanskelighederne ved at fastsætte en generel anbefaling (f.eks. Buhl-Mortensen, 1996; Lemons et al., 1997; Lemons and Victor, 2008; Lieberman and Cunningham, 2009; Myhr, 2010; Rice and Trafimo., 2010; Mudge et al., 2012; Lakens et al., 2018).
Vi argumenterer dog ikke for, at enhver forsker skal sætte sit eget alfa-niveau for hver undersøgelse, som anbefalet af Neyman og Pearson (1933) og Lakens et al., (2018), fordi det også har problemer (Trafimo and and Earp, 2017). For eksempel, med variabel tærskler, mange af de gamle problemer med betydning test, er stadig ikke løst, såsom problemer med regression til gennemsnittet af p-værdier, inflation af effekt størrelser (winner ‘s curse”, se nedenfor), selektiv rapportering og offentliggørelse bias, og den generelle ulempe ved at tvinge beslutninger for hurtigt, snarere end at overveje den kumulative beviser på tværs af forsøg. På baggrund af al usikkerheden omkring statistisk inferens (Greenland, 2017, 2018; Amrhein et al.,, 2018), tvivler vi stærkt på, at vi med succes kunne “kontrollere” fejlfrekvenser, hvis vi kun ville retfærdiggøre vores alfa-niveau og andre beslutninger forud for en undersøgelse, som Lakens et al. (2018) synes at foreslå i deres kommentar til Benjamin et al. (2018). Ikke desto mindre Lakens et al. (2018) konkluderer, at “udtrykket ‘statistisk signifikant’ ikke længere bør anvendes.”Vi er enige, men vi mener, at signifikanstest med en berettiget alfa stadig er signifikanstest, uanset om udtrykket “betydning” bruges eller ej.,
i betragtning af at tæppe og variable alfa-niveauer begge er problematiske, er det fornuftigt ikke at omdefinere statistisk signifikans, men at undlade signifikanstest helt, som foreslået af McShane et al. (2018) og Amrhein og Grønland (2018), to andre kommentarer til Benjamin et al. (2018).
definition af replikabilitet
endnu en ulempe vedrører, hvad Benjamin et al. (2018) udråbt som den største fordel ved deres forslag, vil de offentliggjorte resultater være mere replikerbare ved hjælp af 0.005 end 0.05 alpha-niveauet., Dette afhænger af, hvad der menes med “replikere” (se Lykken, 1968, for nogle definitioner). Hvis man insisterer på det samme alfa-niveau for den oprindelige undersøgelse og replikationsundersøgelsen, ser vi ingen grund til at tro, at der vil være mere succesrige gentagelser ved hjælp af 0.005-niveauet end at bruge 0.05-niveauet. Faktisk antyder det statistiske regressionsargument, der blev fremsat tidligere, at regressionsproblemet gøres endnu værre ved hjælp af 0.005 end ved hjælp af 0.05. Alternativt som Benjamin et al. (2018) synes at antyde, man kunne bruge 0.005 til den oprindelige undersøgelse og 0.05 til replikationsundersøgelsen., I dette tilfælde, er vi enige om, at kombinationen af 0.005 og 0,05 vil skabe færre mislykkede replikationer end kombinationen af 0,05 og 0,05 for den indledende og replikation undersøgelser, hhv. Dette kommer dog til en høj pris i vilkårlighed. Antag, at to undersøgelser kommer ind på p < 0.005 og p < 0.05, hhv. Dette ville tælle som en vellykket replikation. I modsætning hertil, at antage, at de to undersøgelser kommer ind på p < 0,05 og p < 0.005, hhv., Kun den anden undersøgelse ville tælle, og kombinationen ville ikke kvalificere sig som indikerer en vellykket replikation. At insistere på, at Indstilling af en cutoff på 0.005 gør forskning mere replikerbar, ville kræve meget mere specificitet med hensyn til, hvordan man konceptualiserer replikabilitet.
derudover ser vi ikke en enkelt replikationssucces eller fiasko som endelig. Hvis man ønsker at gøre et stærkt tilfælde for replikationssucces eller fiasko, er flere replikationsforsøg ønskelige. Som det attesteres af nylige vellykkede replikationsundersøgelser inden for kognitiv psykologi (. .aan et al .,, 2017) og samfundsvidenskab (Mullini.et al., 2015), vil teoriens kvalitet og i hvilken grad modelantagelser er opfyldt, vigtigere påvirke replikabiliteten.
spørgsmålstegn ved antagelserne
diskussionen hidtil er under påskud af, at de antagelser, der ligger til grund for fortolkningen af p-værdier, er sande. Men hvor sandsynligt er dette? Berk and Freedman (2003) har gjort en stærk sag, at antagelserne om tilfældig og uafhængig prøveudtagning fra en befolkning sjældent er sande., Problemerne er særligt fremtrædende i de kliniske videnskaber, hvor falskheden af antagelserne såvel som forskellene mellem statistisk og klinisk betydning er særlig indlysende og dramatiske (bhard .aj et al., 2004; Ferrill et al., 2010; Fethney, 2010; Side, 2014). Statistiske tests tester imidlertid ikke kun hypoteser, men utallige antagelser og hele det miljø, hvor forskning finder sted (Grønland, 2017, 2018; Amrhein et al., 2018)., Problemet med sandsynlige falske antagelser, i kombination med de andre problemer, der allerede er diskuteret, gør den illusoriske opsamling af sandhed fra p-værdier, eller fra enhver anden statistisk metode, endnu mere dramatisk.
Populationseffektstørrelsen
lad os fortsætte med signifikans-og replikationsproblemerne, idet vi vender tilbage til foregivelse af, at modelantagelser er korrekte, mens vi husker, at dette er usandsynligt. Overvej det som sager Nu står ved hjælp af test af betydning med 0.,05 kriterium, populationseffektstørrelsen spiller en vigtig rolle både for at opnå statistisk signifikans (alt andet lige vil prøveeffektstørrelsen være større, hvis populationseffektstørrelsen er større) og for at opnå statistisk signifikans to gange for en vellykket replikation. Skift til 0.005 cutoff ville ikke mindske betydningen af populationseffektstørrelsen og ville øge dens betydning, medmindre stikprøvestørrelserne steg væsentligt fra dem, der i øjeblikket anvendes. Og der er god grund til at afvise, at replikabilitet bør afhænge af populationseffektstørrelsen., For at se dette hurtigt, overveje en af de vigtigste videnskabelige eksperimenter af hele tiden, af Michelson og Morley (1887). De brugte deres interferometer til at teste, om universet er fyldt med en luminiferous ether, der tillader lys at rejse til Jorden fra stjernerne. Deres prøveeffektstørrelse var meget lille, og fysikere accepterer, at populationseffektstørrelsen er nul, fordi der ikke er nogen luminiferous ether. Ved hjælp af traditionelle test af betydning med enten en 0,05 eller 0.,005 cutoff, kopiere Michelson og Morley ville være problematisk (se Sawilowsky, 2003, for en diskussion af dette eksperiment i forbindelse med hypotesetest). Og alligevel anser fysikere eksperimentet for at være meget replikerbart (se også Meehl, 1967). Ethvert forslag, der indeholder kriterier for afvisning af p-værdi, tvinger replikationssandsynligheden til at blive påvirket af populationseffektstørrelsen, og det skal derfor afvises, hvis vi accepterer forestillingen om, at replikabilitet ikke bør afhænge af populationseffektstørrelsen.
derudover med et alfa-niveau på 0.,005, store effektstørrelser ville være vigtigere for offentliggørelse, og forskere kan måske læne sig meget mere mod “åbenlyst” forskning end mod at teste kreative ideer, hvor der er mere risiko for små effekter og af p-værdier, der ikke opfylder 0.005 bar. Meget sandsynligt er en grund null resultater så vanskelige at offentliggøre i videnskaber som psykologi, fordi traditionen med at bruge p-værdi cutoffs er så indgroet. Det ville være gavnligt at opsige denne tradition.,
nøjagtighed af offentliggjorte effektstørrelser
det er ønskeligt, at offentliggjorte fakta i videnskabelige litteraturer nøjagtigt afspejler virkeligheden. Overvej igen regressionsproblemet. Jo strengere kriterieniveauet for udgivelse er, desto større afstand er der fra et fund, der overgår kriteriet til gennemsnittet, og derfor er der en stigende regressionseffekt. Selv ved 0.,05 alpha niveau, forskerne har længe erkendt, at der er offentliggjort effekt størrelser sandsynligvis ikke afspejler virkeligheden, eller i hvert fald ikke den virkelighed, at der ville blive set, hvis der var mange gentagelser af hvert enkelt eksperiment, og alle blev offentliggjort (se Briggs, 2016; Grice, 2017; Hyman, 2017; Kline, 2017; Locascio, 2017a,b; Mærker, 2017 til en nyere diskussion af dette problem). Under rimelige stikprøvestørrelser og rimelige populationseffektstørrelser er det de unormalt store stikprøveeffektstørrelser, der resulterer i p-værdier, der opfylder 0.05-niveauet eller 0.,005-niveau eller ethvert andet alfa-niveau, som det er indlysende ud fra Statistisk regression. Og med typisk lave prøvestørrelser, statistisk signifikante effekter er ofte overvurderinger af befolkningseffektstørrelser, som kaldes “effektstørrelse inflation,” “sandhedsinflation,” eller “vinderens forbandelse” (Amrhein et al., 2017). Effekt størrelse overvurdering blev empirisk påvist i den Åbne Videnskab Samarbejde (2015), hvor den gennemsnitlige effekt størrelse i replikation kohorte undersøgelser blev drastisk reduceret fra de gennemsnitlige effekt størrelse i den oprindelige kohorte (fra 0.403 at 0.197)., Ændring til en strengere 0.005 cutoff ville resultere i endnu værre effektstørrelse overvurdering (knap et al., 2013; Amrhein og Grønland, 2018). Betydningen af at have offentliggjort effektstørrelser nøjagtigt afspejler populationseffektstørrelser er i modstrid med brugen af tærskelkriterier og signifikanstest på ethvert alfa-niveau.
Prøvestørrelse og alternativer til Signifikanstest
Vi understreger, at replikation stort set afhænger af prøvestørrelse, men der er faktorer, der forstyrrer forskere, der bruger de store prøvestørrelser, der er nødvendige for god prøveudtagningspræcision og replikabilitet., Ud over de åbenlyse omkostninger ved at opnå store stikprøvestørrelser kan der være en underappreciation af, hvor meget stikprøvestørrelse der betyder noget (Vankov et al., 2014), af vigtigheden af incitamenter til at favorisere nyhed frem for replikabilitet (Nosek et al., 2012) og af en udbredt misforståelse om, at komplementet til p-værdier måler replikabilitet (Cohen, 1994; Thompson, 1996; Greenland et al., 2016). Et fokus på stikprøvestørrelse antyder et alternativ til signifikanstest., Trafimo. (2017; Trafimo. og MacDonald, 2017) foreslog en procedure som følger: forskeren specificerer, hvor tæt hun ønsker, at prøvestatistikken skal være på deres tilsvarende befolkningsparametre, og den ønskede Sandsynlighed for at være så tæt. Trafimo .s ligninger kan bruges til at opnå den nødvendige prøvestørrelse for at opfylde denne nærhedsspecifikation., Forskeren derefter opnår den nødvendige stikprøvestørrelse, beregner den beskrivende statistik, og tager dem så præcise estimater af befolkningen parametre (foreløbigt på nye data, selvfølgelig; en optimal måde at opnå pålidelige skøn er via robuste metoder, se Huber, 1972; Tyrkiet, 1979; Rousseeuw, 1991; Portnoy og Han, 2000; Erceg-Hurn et al., 2013; Field and andilco and, 2017). Lignende metoder har længe eksisteret, hvor stikprøvestørrelsen er baseret på den ønskede maksimale bredde for konfidensintervaller.,
Denne korte procedure understreger, (a) at afgøre, hvad det tager for at tro, at prøve statistik er gode estimater af befolkningen parametre, før indsamling af data snarere end bagefter, og (b) at opnå en tilstrækkelig stor stikprøve for at være sikker på, at den opnåede stikprøve statistik virkelig er inden for de angivne afstande på tilsvarende befolkning parametre. Proceduren fremmer heller ikke offentliggørelse bias, fordi der ikke er nogen cutoff for offentliggørelse beslutninger., Og nærhedsproceduren er ikke den samme som traditionel effektanalyse: for det første er målet med traditionel effektanalyse at finde den prøvestørrelse, der er nødvendig for at have en god chance for at opnå en statistisk signifikant p-værdi. For det andet påvirkes den traditionelle effektanalyse stærkt af den forventede effektstørrelse, mens nærhedsproceduren ikke påvirkes af den forventede effektstørrelse under normale (gaussiske) modeller.
det større punkt er, at der er kreative alternativer til signifikanstest, der konfronterer problemet med prøvestørrelse meget mere direkte end signifikanstest gør., Den “statistiske værktøjskasse” (Gigerenzer og Marewski, 2015) yderligere omfatter, for eksempel, konfidensintervaller (som snarere burde være omdøbt og bruges som “kompatibilitet mellemrum”—se Amrhein et al., 2018; Grønland, 2018), ækvivalenstest, p-værdier som kontinuerlige målinger af refutational bevis mod en model (Grønland, 2018), sandsynlighedsforhold, bayesiske metoder eller informationskriterier. Og i produktions-eller kvalitetskontrolsituationer kan også Neyman-Pearson-beslutninger give mening (Bradley og Brand, 2016).,men for videnskabelig udforskning bør ingen af disse værktøjer blive den nye magiske metode, der giver klare mekaniske svar (Cohen, 1994), fordi hvert udvælgelseskriterium vil ignorere usikkerhed til fordel for binær beslutningstagning og dermed producere de samme problemer som dem, der skyldes signifikanstest. Brug af en tærskel for Bayes-faktoren vil for eksempel resultere i et lignende dilemma som med en tærskel for p-værdien: som Konijn et al. (2015) foreslog: “Gud ville elske en Bayes-faktor på 3.01 næsten lige så meget som en Bayes-faktor på 2.99.,”
Endelig bør inferens overhovedet ikke baseres på enkeltundersøgelser (Neyman og Pearson, 1933; Fisher, 1937; Grønland, 2017) eller på gentagelser fra samme laboratorium, men på kumulative beviser fra flere uafhængige undersøgelser. Det er ønskeligt at opnå præcise estimater i disse undersøgelser, men et vigtigere mål er at eliminere publikationsbias ved at inkludere brede konfidensintervaller og små effekter i litteraturen, uden hvilken det kumulative bevis vil blive forvrænget (Amrhein et al., 2017, 2018; Amrhein og Grønland, 2018)., Langs disse linjer, Briggs (2016) taler for at opgive parameter-baseret inferens og vedtagelse af rent intelligent, og derfor skal kunne kontrolleres, er sandsynligheden for modeller, og Grønland (2017) ser et stort behov for at komme væk fra empiriske statistikker og hugge mere nøje beskrivelser af undersøgelse procedurer, indsamling af data , og de resulterende data.”
konklusion
det forekommer hensigtsmæssigt at afslutte med det grundlæggende problem, der har været med os fra begyndelsen., Skal p-værdier og p-værditærskler eller ethvert andet statistisk værktøj bruges som hovedkriterium for at træffe beslutninger om offentliggørelse eller beslutninger om at acceptere eller afvise hypoteser? Den blotte kendsgerning, at forskere beskæftiger sig med replikation, men det er konceptualiseret, indikerer en påskønnelse af, at enkeltundersøgelser sjældent er endelige og sjældent retfærdiggør en endelig beslutning., Når vurdere styrken af de beviser, sofistikeret forskere overveje, i en ganske vist subjektive måde, teoretiske overvejelser sådan et omfang, forklarende bredde, og intelligent magt; den værd af ekstra antagelser, der forbinder nonobservational udtryk i teorier til at observationelle vilkår i empiriske hypoteser; styrken af det eksperimentelle design, og konsekvenser for applikationer. At koge alt dette ned til en binær beslutning baseret på en p-værdi tærskel på 0,05, 0.01, 0.005, eller noget andet, er ikke acceptabelt.,
Forfatterbidrag
alle forfattere, der er anført, har bidraget direkte til papiret eller støtter dets indhold og godkendt det til offentliggørelse.
Erklæring om interessekonflikt
FK-N var ansat hos Oikostat GmbH. GM har fungeret som konsulent for Janssen Research and Development, LLC.
de andre forfattere erklærer, at forskningen blev udført i mangel af kommercielle eller økonomiske forhold, der kunne fortolkes som en potentiel interessekonflikt.,
anerkendelser
Vi takker Sander Grønland og Rink Hoekstra for kommentarer og diskussioner. MG anerkender støtte fra VEGA 2/0047/15 tilskud. RvdS blev støttet af et tilskud fra den nederlandske organisation for videnskabelig forskning: NOO-VIDI-45-14-006. Publikationen blev støttet af grant 156294 fra S .iss National Science Foundation til VA.
Bradley, M. T., and Brand, A. (2016). Signifikanstest har brug for en taksonomi: eller hvordan fiskeren, Neyman-Pearson-kontrovers resulterede i, at den inferentielle hale logrede målehunden. Psychol. Rep. 119, 487-504., doi: 10.1177/0033294116662659
PubMed Abstract | CrossRef Fuld Tekst | Google Scholar
Briggs, W. M. (2016). Usikkerhed: sjælen af modellering, sandsynlighed og statistik. Ne.York, NY: Springer.
Google Scholar
Cohen, J. (1994). Jorden er rund (p < 0.05). Er. Psychol. 49, 997–1003.
Google Scholar
Fisher, R. A. (1925). Statistiske metoder for forskere, 1st Edn. Oliver og Boyd.
Fisher, R. A. (1937)., Udformningen af eksperimenter, 2nd Edn. Oliver og Boyd.
Fisher, R. A. (1973). Statistiske metoder og videnskabelig inferens, 3.Edn. Macmillan.
Mayo, D. (1996). Fejl og væksten i eksperimentel viden. Chicago, IL: University of Chicago Press.
Google Scholar
Melton, A. (1962). Redaktionel. J. E Expp. Psychol. 64, 553–557. doi: 10.1037 / h0045549
CrossRef fuldtekst
Open Science Collaboration (2015). Estimering af reproducerbarheden af psykologisk videnskab., Videnskab 349: aac4716. doi: 10.1126 / videnskab.aac4716
CrossRef Fuld Tekst
Side, P. (2014). Ud over statistisk betydning: klinisk fortolkning af rehabiliteringsforskningslitteratur. Int. J. Sports Phys. Ther. 9:72.
PubMed Abstract | Google Scholar
Thompson, B. (1996). Aera redaktionelle politikker vedrørende statistisk signifikanstest: tre foreslåede reformer. Educ. Res. 25, 26-30. doi: 10.2307/1176337
CrossRef Fuld Tekst | Google Scholar
Trafimow, D. (2017)., Ved hjælp af koefficienten af tillid til at gøre den filosofiske skifte fra a posteriori til a priori inferential statistik. Educ. Psychol. Meas. 77, 831–854. doi: 10.1177/0013164416667977
CrossRef Fuld Tekst | Google Scholar