Welcome to Our Website

Frontiers in Psychology (Norsk)

Mange forskere har kritisert nullhypotesen hypotesetesting, selv om mange har forsvart det også (se Balluerka et al., 2005, for en gjennomgang). Noen ganger er det anbefalt at den alpha nivået reduseres til en mer konservativ verdi, for å senke Type i feil. For eksempel, Melton (1962), redaktør av Journal of Experimental Social Psychology fra 1950-1962, foretrukket en alpha-nivå på 0,01 over typiske 0.05 alpha-nivå. Mer nylig, Benjamin et al., (2018) som er anbefalt flyttet til 0.005—i samsvar med Melton kommentar at selv 0.01 nivå kan ikke være «tilstrekkelig imponerende» til å rettferdiggjøre publiseringen (s. 554). I tillegg, Benjamin et al. (2018) fastsatt at 0.005 alpha-nivå bør være for nye funn, men var vag på hva du skal gjøre med funn som er ikke ny. Selv om det ikke nødvendigvis godkjenne hypotesetesting som foretrukket slutnings-statistiske prosedyren (mange av forfatterne tilsynelatende favør Bayesiansk prosedyrer), Benjamin et al. (2018) gjorde hevder at det å bruke en 0.,005 cutoff ville løse mye av hva som er galt med signifikanstesting. Dessverre, som vi vil vise, problemer med betydning tester kan ikke være viktigere reduseres bare ved å ha en mer konservativ avvisning kriteriet, og noen problemer blir forsterket ved å vedta en mer konservativ kriteriet.

Vi starte med noen krav på en del av Benjamin et al. (2018). For eksempel, skrev de «…å endre P-verdi terskelen er enkel, på linje med opplæring gjennomført av mange forskere, og kan raskt å oppnå bred aksept.,»Hvis hypotesetesting—på noen p-verdi grensen—er så dårlig feil som vi vil opprettholde det (se også Amrhein et al., 2017; Grønland, 2017), disse grunner er åpenbart ikke nok til å rettferdiggjøre bare endre grenseverdien. Vurdere en annen påstand: «Den nye betydningen terskelen vil hjelpe forskere og lesere til å forstå og kommunisere bevis på en mer nøyaktig måte.»Men hvis forskerne har forståelse og kommunikasjon problemer med en 0,05 terskel, det er uklart hvordan du bruker en 0.005 terskelen vil eliminere disse problemene., Og vurdere ennå en annen påstand: «Forfatterne og leserne kan selv ta initiativet ved å beskrive og tolke resultater mer hensiktsmessig i lys av den nye foreslåtte definisjonen av statistisk signifikans.»Nytt, det er ikke klart hvordan å vedta en 0.005 terskel vil gi forfatterne og leserne til å ta initiativ i forhold til å bedre data tolkning. Dermed, selv før en diskusjon av våre viktigste argumenter, er det grunn til leseren å være mistenkelig, av hissig krav med ingen empirisk støtte.,

Med den foregående ut av veien, mener at et grunnleggende problem med tester av betydning er at målet er å avvise nullhypotesen. Dette målet ser ut til å kreve—hvis man er en Bayesiansk—at bakre sannsynlighet for at nullhypotesen skal være lave gitt innhentet å finne. Men p-verdien man får er sannsynligheten for å finne, og i mer ekstreme resultater, gitt at nullhypotesen og alle andre forutsetninger om modellen var riktige (Grønland et al.,, 2016; Grønland, 2017), og en må foreta en ugyldig inverse slutning å trekke en konklusjon om sannsynligheten for at nullhypotesen er gitt funn. Og hvis man er en frequentist, det er ingen måte å komme seg gjennom logiske gap fra sannsynligheten for å finne og av mer ekstreme resultater, gitt nullhypotesen, til en beslutning om hvorvidt man bør akseptere eller forkaste nullhypotesen (Briggs, 2016; Trafimow, 2017). Vi aksepterer at ved å frequentist logikk, sannsynligheten for Type i feil virkelig er lavere hvis vi bruker en 0.005 grenseverdien for p enn en 0,05 cutoff, alt annet er likt., Vi aksepterer også Bayesiansk argument av Benjamin et al. (2018) at nullhypotesen er mindre sannsynlig hvis p = 0.005 enn hvis p = 0,05, alt annet er likt. Til slutt, vi erkjenner at Benjamin et al. (2018) gitt en tjeneste for vitenskap ved ytterligere å stimulere til debatt om hypotesetesting. Men det er viktige problemstillinger Benjamin et al. (2018) synes ikke å ha vurdert, diskutert i de følgende avsnittene.,

Regresjon og Replicability

Trafimow og Earp (2017) argumenterte mot den generelle oppfatningen av å sette et alpha-nivå for å gjøre beslutninger om å avvise eller ikke forkaste null-hypoteser, og argumenter for å beholde sin makt, selv om den alpha nivået er redusert til 0,005. På noen måter, reduksjon forverres saker. Ett problem er at p-verdier har tilfeldige variasjon, som gjøre andre statistikk (Cumming, 2012)., Men p-verdien er spesiell ved at den er designet for å se ut som ren støy hvis nullhypotesen og alle andre modellens forutsetninger er riktige, for i så fall p-verdien er jevnt fordelt på (Grønland, 2018). Under en alternativ hypotese, som for sin distribusjon er flyttet nedover, med sannsynligheten for s falle under den valgte grenseverdien blir strømmen av testen. Fordi den faktiske makt av typiske studier er ikke veldig høy, når alternativ er riktig, vil det i stor grad være et spørsmål om flaks om samplet p-verdien er under valgt alpha-nivå., Når, slik tilfellet ofte er, den strømmen som er langt under 50% (Smaldino og McElreath, 2016), forsker er usannsynlig å re-eksempel på en p-verdi under en betydning terskelen ved replikasjon, ettersom det kan være mange flere p-verdier ovenfor enn nedenfor terskelen i p-verdi distribusjon (Goodman, 1992; Han, 2002; Halsey et al., 2015). Dette problemet blir verre som grenseverdien senkes, siden for en konstant eksempel størrelse, makt dråper med grenseverdien.,

Selv om man ikke bruker en grenseverdi, fenomenet regresjon til å bety tyder på at p-verdi oppnås i en replikering eksperiment er sannsynlig å regress hva betyr p-verdien ville være hvis mange gjennomkjøringer ble utført. Hvor mye regresjon skal skje? Når nullhypotesen er feil, det kommer an på hvordan variabel poenget estimater og dermed p-verdier er.

Videre, variabiliteten av p-verdier resulterer i dårlig korrelasjon over gjennomkjøringer., Basert på data lagt ut på internett av Åpen Vitenskap Samarbeid (2015; https://osf.io/fgjvw), Trafimow, og de Boer (innsendt) beregnet med en korrelasjon på bare 0.004 mellom p-verdier som er innhentet i den opprinnelige kohorten av studier med p-verdier som er innhentet i replikering kohorten, sammenliknet med forventet korrelasjon på null hvis alle null-hypoteser og modeller som brukes for å beregne p-verdier var riktige (og dermed alle p-verdier var jevnt fordelt).,

Det er flere mulige årsaker til den lave korrelasjonen, blant annet at de fleste av de undersøkte foreninger kan ha faktisk er nesten null, slik at p-verdier forble i hovedsak en funksjon av støy og dermed en nær null korrelasjon bør forventes., Men selv om mange eller de fleste av foreningene langt fra null, og dermed forskyve p-verdier ned mot null, og å skape en positiv korrelasjon mellom replikering, at korrelasjonen vil forbli lave skyldes ikke bare til den store tilfeldige feil i p-verdier, men også på grunn av ufullkommen replikering metodikk og ikke-lineære forhold mellom p-verdier og effekt størrelser («korrigere» korrelasjonen for demping på grunn av begrensning av omfanget, i den opprinnelige kohorten av studier, øker korrelasjonen til 0,01, som fortsatt er lav)., Også, hvis de fleste av de testede null-hypoteser var falske, lav p-verdi replicability som gjenspeiles av Åpen Vitenskap Samarbeid kan tilskrives, i en del, for publikasjonsskjevhet forårsaket av å ha en publisering kriterium basert på p-verdier (Locascio, 2017a; Amrhein og Grønland, 2018)., Men hvis man ønsker å foreta en slik fordeling, selv om det kan gi en begrunnelse for bruk av p-verdier i en hypotetisk vitenskapelige univers, hvor p-verdier fra falske nuller er mer sammenlignbar fordi av et mangel av publikasjonsskjevhet, fordeling gir likevel en annen viktig grunn til å unngå enhver form for publisering kriterier basert på p-verdier eller andre statistiske resultater (Amrhein og Grønland, 2018).,

Dermed fikk p-verdi i en original studien har lite å gjøre med p-verdi oppnås i en replikering eksperiment (som er akkurat hva den faktiske teorien om p-verdier sier bør være tilfelle). Den beste prediksjon ville være en p-verdi for replikering eksperiment blir vesentlig nærmere gjennomsnittlig p-verdi distribusjon enn til p-verdien som oppnås i det opprinnelige eksperimentet. Under noen hypotese, jo lavere p-verdi publisert i det opprinnelige eksperimentet (f.eks., 0.001 snarere enn 0.,01), jo mer sannsynlig er det at det representerer en større avstand av p-verdi p-verdi betyr, noe som tyder på økt regresjon til å bety.

Alt dette betyr at binære beslutninger, basert på p-verdier, om avslag eller aksept av hypoteser, om styrken av bevis (Fisher, 1925, 1973), eller om alvorlighetsgraden av testen (Mayo, 1996), vil være upålitelig beslutninger. Dette kan hevdes å være en god grunn til ikke å bruke p-verdier på alle, eller i hvert fall ikke til å bruke dem til å gjøre vedtak om eller ikke for å dømme vitenskapelige hypoteser som blir riktig (Amrhein et al., 2018).,

Feil Priser og Variable Alpha Nivåer

en Annen ulempe med å bruke et sett alpha-nivå for publisering er at den relative betydningen av Type i og Type II feil kan variere på tvers av studier innen eller mellom områder og forskere (Trafimow og Earp, 2017). Stille et teppe nivå av enten 0,05 eller 0.005, eller noe annet, tvinger forskere til å late som om den relative betydningen av Type i og Type II feil er konstant. Benjamin et al. (2018) prøver å rettferdiggjøre sin anbefaling om å redusere til 0.,005 nivå ved å peke ut noen områder av vitenskapen som bruker svært lav alfa-nivå, men denne observasjonen er like forenlig med ideen om at et teppe nivå på tvers av vitenskap er uønsket. Og det er gode grunner til at variasjon på tvers av felt og emner er å være forventet: En rekke faktorer kan påvirke den relative betydningen av Type i og Type II feil, og dermed gjøre noen generell anbefaling uønsket. Disse faktorene kan inkludere klarhet i teorien, aux-forutsetninger, praktisk eller brukt bekymringer, eller eksperimentelle stringens., Faktisk, Miller og Ulrich (2016) viste hvordan disse og andre faktorer har en direkte innvirkning på den endelige forskning utbetalingen. Det er en imponerende litteratur attesterer til vanskeligheter i å sette et teppe nivå anbefaling (f.eks., Buhl-Mortensen, 1996; Sitroner et al., 1997; Sitroner og Victor, 2008; Lieberman og Cunningham, 2009; Myhr, 2010; Ris og Trafimow, 2010; Mudge et al., 2012; Lakens et al., 2018).

Imidlertid kan vi ikke hevde at enhver forsker skal få til å sette sin egen alpha-nivå for hver studie, som anbefalt av Neyman og Pearson (1933) og Lakens et al., (2018), fordi som har problemer også (Trafimow og Earp, 2017). For eksempel, med variabel terskler, mange gamle problemer med signifikanstesting forblir uløst, slik som problemer av regresjon til å bety for p-verdier, inflasjon av effekt størrelser (den «vinnerens forbannelse», se nedenfor), selektiv rapportering og publikasjonsskjevhet, og den generelle ulempen med å tvinge beslutninger for fort heller enn å vurdere kumulative bevis på tvers av eksperimenter. I lys av alle de stor usikkerhet knyttet til statistisk inferens (Grønland, 2017, 2018; Amrhein et al.,, 2018), vi tviler sterkt på at vi kunne «styre» feil priser hvis vi bare ville rettferdiggjøre vår alpha-nivå og andre beslutninger i forkant av en studie, som Lakens et al. (2018) synes å foreslå i sin kommentar til Benjamin et al. (2018). Likevel, Lakens et al. (2018) konkluderer med at «begrepet» statistisk signifikante » skal ikke lenger brukes.»Vi er enige, men vi tror at signifikanstesting med en begrunnet alpha er fortsatt hypotesetesting, om begrepet «betydning» er brukt eller ikke.,

Gitt at teppet og variable alpha nivåer både er problematisk, det er fornuftig ikke å omdefinere statistisk signifikans, men å kvitte seg med signifikanstesting helt, som foreslått av McShane et al. (2018) og Amrhein og Grønland (2018), to andre kommentarer til Benjamin et al. (2018).

Definere Replicability

Enda en ulempe gjelder hva Benjamin et al. (2018) spioneringen som den viktigste fordelen av deres forslag, som publiserte funn vil være mer sammenlignbar med 0.005 enn 0.05 alpha-nivå., Dette avhenger av hva som menes med «gjenskape» (se Lykken, 1968, for noen definisjoner). Hvis man insisterer på samme alpha-nivå for den opprinnelige studien og replikering studere, så ser vi ingen grunn til å tro at det vil være mer vellykket gjennomkjøringer med 0.005 nivå enn å bruke 0.05 nivå. Faktisk, den statistiske regresjon argumentet gjort tidligere tyder på at regresjon problemet er gjort enda verre ved hjelp av 0.005 enn å bruke 0.05. Alternativt, som Benjamin et al. (2018) synes å foreslå, vil man kunne bruke 0.005 for den opprinnelige studien og 0,05 for replikering studie., I dette tilfellet er vi enige om at kombinasjonen av 0.005 og 0,05 vil skape færre mislykket gjennomkjøringer enn kombinasjonen av 0.05 og 0,05 for den første og replikering studier, henholdsvis. Imidlertid, dette kommer til en høy pris i vilkårlighet. Anta at to studier kommer inn på p < 0.005 og p < 0.05, henholdsvis. Dette vil telle som en vellykket replikering. I kontrast, kan du anta at de to studiene kommer inn på p < 0,05 og p < 0.005, henholdsvis., Bare den andre studien ville telle, og kombinasjonen ikke ville kvalifisere som indikerer en vellykket replikering. Å insistere på at hvis du angir en grenseverdi på 0,005 gjør forskningen mer sammenlignbar ville kreve mye mer spesifisitet med hensyn til hvordan å se replicability.

I tillegg kan vi ikke se en eneste replikering suksess eller fiasko som endelige. Hvis man ønsker å gjøre en stor sak for replikering suksess eller fiasko, flere forsøk på replikasjon er ønskelig. Som er bekreftet av de siste vellykket replikering studier i kognitiv psykologi (Zwaan et al.,, 2017) og samfunnsvitenskap (Mullinix et al., 2015), kvaliteten på teori og i hvilken grad modellen forutsetninger er oppfylt vil viktigere innflytelse replicability.

Spørsmålstegn ved Forutsetningene

Den diskusjonen så langt er under påskudd at de forutsetninger som ligger til grunn for tolkning av p-verdier er true. Men hvor sannsynlig er dette? Berk og Lausingen (2003) har laget en stor sak av at de forutsetninger som er av tilfeldig og uavhengig sampling fra en populasjon er sjelden sann., Problemene er særlig fremtredende i de kliniske fag, der falskhet av forutsetninger, så vel som forskjeller mellom statistisk og klinisk betydning, er spesielt tydelig og dramatisk (Bhardwaj et al., 2004; Ferrill et al., 2010; Fethney, 2010; Side, 2014). Imidlertid, statistiske tester ikke bare teste hypoteser, men utallige forutsetninger og hele miljøet i forskning som foregår (Grønland, 2017, 2018; Amrhein et al., 2018)., Problemet med sannsynlig falske forutsetninger, i kombinasjon med andre problemer allerede diskutert, gjengi illusorisk å tiltrekke av sannheten fra p-verdier, eller fra noen annen statistisk metode, enda mer dramatisk.

Befolkningen Effect Size

La oss fortsette med betydning og replikering problemer, gå tilbake til den unnskyldning at modellens forutsetninger er riktige, mens du holder i tankene at dette er usannsynlig. Anser det som betyr noe nå står med tester av betydning med 0.,05 kriteriet, befolkningen effekt størrelse spiller en viktig rolle både i å oppnå statistisk signifikans (alt annet er likt, prøven effekt størrelse vil være større hvis befolkningen effekten er større) og i å oppnå statistisk signifikans to ganger for en vellykket replikering. Veksle til 0.005 cutoff ikke ville minske betydningen av befolkningen effekt størrelse, og vil øke sin betydning, med mindre utvalgene har økt betydelig fra de som er brukt. Og det er god grunn til å avvise at replicability bør avhenge av befolkningen effekt størrelse., For å se dette raskt, bør du vurdere en av de viktigste vitenskapelige eksperimenter av all tid, ved Michelson og Morley (1887). De brukte sin interferometer for å teste om universet er fylt med en luminiferous ether som gjør det lett å reise til Jorden fra stjernene. Prøven deres effekt størrelse var veldig liten, og fysikere akseptere at befolkningen effekt størrelse null fordi det er ingen luminiferous eter. Ved hjelp av tradisjonelle tester av betydning med enten en 0,05 eller 0.,005 cutoff, kopiere Michelson og Morley ville være problematisk (se Sawilowsky, 2003 for en diskusjon av dette eksperimentet i sammenheng med hypotesetesting). Og ennå fysikere vurdere eksperiment for å være svært sammenlignbar (se også Meehl, 1967). Alle forslag som har p-verdi avvisning kriterier styrker replikering sannsynlighet for å bli påvirket av befolkningen effekt størrelse, og så må avvises hvis vi godta ideen om at replicability bør ikke avhenge av befolkningen effekt størrelse.

I tillegg, med en alpha-nivå 0.,005, stor effekt størrelser vil bli mer viktig for publisering, og forskere kan lene seg mye mer mot «åpenbart» forskning enn mot testing kreative ideer hvor det er mer en risiko for små virkninger og p-verdier som ikke klarer å møte 0.005 bar. Svært sannsynlig, en grunn til null resultater er så vanskelig å publisere i vitenskaper som psykologi er fordi det tradisjon for å bruke p-verdi cutoffs er så inngrodd. Det ville være gunstig å si opp denne tradisjonen.,

Nøyaktigheten av Publisert Effekt Størrelser

Det er ønskelig at publiserte fakta i vitenskapelig litteratur nøyaktig gjenspeiler virkeligheten. Vurdere igjen regresjon problemet. De strengere kriteriene nivå for publisering, jo mer avstand det er fra et funn som går kriteriet til å bety, og slik at det er en økende regresjon effekt. Selv på 0.,05 alpha-nivå, forskere har lenge visst at publisert effekt størrelser sannsynlig ikke gjenspeiler virkeligheten, eller i det minste ikke virkeligheten som ville bli sett hvis det var mange gjennomkjøringer av hvert eksperiment og alle ble publisert (se Briggs, 2016; Grice, 2017; Hyman, 2017; Kline, 2017; Locascio, 2017a,b; Merker, 2017 for en nylig diskusjon av dette problemet). Under rimelig eksempel størrelser og rimelig befolkningen effekt størrelser, det er unormalt stort utvalg effekt størrelser som resultat i p-verdier som oppfyller 0.05 nivå, eller 0.,005 nivå, eller noen andre alpha-nivå, som er åpenbart fra synspunkt av statistisk regresjon. Og med typisk lav eksempel størrelser, statistisk signifikante effekter ofte er overestimates av befolkningen effekt størrelser, som er kalt «effect size inflasjon,» «sannhet inflasjon,» eller «vinnerens forbannelse» (Amrhein et al., 2017). Effekt størrelse overestimation var empirisk vist i Åpen Vitenskap Samarbeid (2015), hvor gjennomsnittlig effektstørrelse i replikering kohort av studiene ble dramatisk redusert fra gjennomsnittlig effektstørrelse i den opprinnelige kohorten (fra 0.403 å 0.197)., Endre til en strengere 0.005 cutoff ville resultere i enda verre effekt størrelse overestimation (Knappen et al., 2013; Amrhein og Grønland, 2018). Viktigheten av å ha publisert effekt størrelser nøyaktig gjenspeile befolkningen effekt størrelser motsier bruk av terskelen kriterier og betydning tester, på alle alpha-nivå.

Eksempel Størrelse og Alternativer til hypotesetesting

Vi understreke at replikering i stor grad avhenger av utvalgsstørrelse, men det er faktorer som forstyrrer forskere med stort utvalg størrelser som er nødvendig for god prøvetaking presisjon og replicability., I tillegg til de åpenbare kostnader for å skaffe stort utvalg størrelser, kan det være en underappreciation av hvor mye sample size matters (Vankov et al., 2014), om viktigheten av å insentiver til å favorisere nyhet over replicability (Nosek et al., 2012) og av en utbredt misforståelse at bemanning av p-verdier tiltak replicability (Cohen, 1994; Thompson, 1996; Grønland et al., 2016). Fokus på utvalgsstørrelsen foreslår et alternativ til hypotesetesting., Trafimow (2017; Trafimow og MacDonald, 2017) foreslås en prosedyre som følger: forsker angir hvor nær hun ønsker eksempel statistikk for å være til sine respektive befolkningen parametere, og ønsket sannsynligheten for å være så nær. Trafimow er ligninger kan brukes til å innhente nødvendig utvalgsstørrelse for å møte denne nærheten spesifikasjon., Forskeren deretter innhenter nødvendig utvalgsstørrelse, regner ut den beskrivende statistikk, og tar dem så nøyaktig estimater av befolkningen parametre (midlertidig på nye data, selvfølgelig; en optimal måte for å oppnå pålitelig estimat er via robuste metoder, se Huber, 1972; Tukey, 1979; Rousseeuw, 1991; Portnoy og Han, 2000; Erceg-Hurn et al., 2013; Feltet og Wilcox, 2017). Lignende metoder har lenge eksistert som eksempel størrelse er basert på ønsket maksimal bredde for konfidensintervaller.,

Denne nærheten prosedyre påkjenninger (a) å bestemme hva det tar til å tro at prøven statistikk er gode estimater av bestanden parametre før innsamling av data snarere enn etterpå, og (b) å få et stort nok utvalg størrelse for å være sikre på at de fikk prøve statistikken egentlig er innenfor de angitte avstander tilsvarende befolkningen parametere. Prosedyren heller ikke fremme publikasjonsskjevhet fordi det er ingen grense for publisering beslutninger., Og nærhet prosedyren er ikke det samme som tradisjonelle makt analyse: for det Første målet av tradisjonell kraft analyse er å finne prøven størrelse nødvendig å ha en god sjanse til å få et statistisk signifikant p-verdi. For det andre, tradisjonelle makt analyse er sterkt påvirket av den forventede effekt størrelse, mens den nærhet prosedyren er upåvirket av forventet effekt størrelse under normale (Gaussisk) modeller.

Jo større poenget er at det er kreative alternativer til hypotesetesting at konfrontere eksempel størrelse problemet mye mer direkte enn hypotesetesting gjør., Den «statistisk toolbox» (Gigerenzer og Marewski, 2015) videre omfatter, for eksempel, konfidensintervaller (som heller bør få nytt navn og bli brukt som «kompatibilitet intervaller»—se Amrhein et al., 2018; Grønland, 2018), ekvivalens tester, p-verdier som kontinuerlig måler av refutational bevis mot en modell (Grønland, 2018), sannsynligheten forholdstall, Bayesianske metoder, eller informasjon kriterier. Og i produksjon eller kvalitet kontrollere situasjoner, også Neyman-Pearson beslutninger kan være fornuftig (Bradley og Merke, 2016).,

Men for scientific exploration, ingen av disse verktøyene bør bli den nye magic-metoden gir klare mekanisk svar (Cohen, 1994), fordi hver eneste kriterie vil ignorere usikkerhet i favør av binære beslutningsprosesser og dermed produsere de samme problemene som de som er forårsaket av hypotesetesting. Ved hjelp av en terskel for Bayes faktor, for eksempel, vil resultere i et lignende dilemma som med en terskel for p-verdi: som Konijn et al. (2015) foreslo: «Gud ville elske en Bayes faktor av 3.01 nesten like mye som en Bayes faktor på 2.99.,»

til Slutt, slutning bør ikke være basert på en enkelt studies i det hele tatt (Neyman og Pearson, 1933; Fisher, 1937; Grønland, 2017), og heller ikke på gjennomkjøringer fra samme lab, men på kumulativ bevis fra flere uavhengige studier. Det er ønskelig å oppnå presise estimater i disse studiene, men en mer viktig mål er å eliminere publikasjonsskjevhet av blant annet brede konfidensintervaller og små virkninger i litteraturen, uten den kumulative bevis vil bli forvrengt (Amrhein et al., 2017, 2018; Amrhein og Grønland, 2018)., Langs disse linjene, Briggs (2016) argumenterer for å forlate parameter-basert analyse og vedta rent logisk, og derfor verifiserbar, sannsynlighet modeller, og Grønland (2017) ser «et akutt behov for å komme vekk fra slutningsstatistikk og hugge mer nøye beskrivelser av studien prosedyrer, datainnsamling , og den resulterende data.»

Konklusjon

Det synes hensiktsmessig å konkludere med grunnleggende problem som har vært med oss fra begynnelsen., Bør p-verdier og p-verdi terskler, eller noen andre statistiske verktøy, brukes som den viktigste kriteriet for å gjøre publisering beslutninger eller vedtak om å godta eller forkaste hypoteser? Det faktum at forskere er opptatt med replikering, men det er begrepsfestet, indikerer en forståelse av at enkelt studier er sjelden definitive og sjelden rettferdiggjøre en endelig avgjørelse., Når du vurderer styrken av bevis, sofistikert forskere vurdere, i en riktignok subjektive måte, teoretiske betraktninger som for eksempel omfang, forklarende bredde, og prediktiv kraft; verdien av den ekstra forutsetninger koble nonobservational vilkårene i teorier for å observasjonelle vilkårene i empiriske hypoteser; styrken av eksperimentell design, og implikasjoner for programmer. For å koke det ned til en binær beslutning basert på en p-verdi terskel på 0,05, 0.01, 0.005, eller noe annet, er ikke akseptabelt.,

Forfatter Bidrag

Alle forfattere som er oppført har laget et direkte bidrag til papir eller gir sin tilslutning til innhold, og godkjent for publisering.

interessekonflikt Uttalelse

FK-N var ansatt ved Oikostat GmbH. GM har vært konstituert som konsulent for Janssen Forskning og Utvikling, LLC.

Den andre forfattere erklærer at forskningen ble utført i fravær av kommersielle eller finansielle forhold som kan oppfattes som en potensiell interessekonflikt.,

Erkjennelsene

Vi takker Sander Grønland og Skøytebane Hoekstra for kommentarer og diskusjoner. MG erkjenner støtte fra VEGA 2/0047/15 grant. RvdS ble støttet av et stipend fra Nederland organisasjon for vitenskapelig forskning: NWO-VIDI-45-14-006. Publikasjonen ble økonomisk støttet av grant 156294 fra Swiss National Science Foundation til VA.

Bradley, M. T., og Brand, A. (2016). Hypotesetesting er behov for en taksonomi: eller hvordan Fisher, Neyman-Pearson-striden resulterte i de underforståtte logrende måling hund. Psychol. Rep. 119, 487-504., doi: 10.1177/0033294116662659

PubMed Abstrakt | CrossRef Full Tekst | Google Scholar

Briggs, W. M. (2016). Usikkerhet: Sjelen av Modellering, Sannsynlighet og Statistikk. New York, ny: Springer.

Google Scholar

Cohen, J. (1994). Jorden er rund (p < 0.05). Er. Psychol. 49, 997-1003.

Google Scholar

Fisher, R. A. (1925). Statistiske Metoder for Forskning Arbeidere, 1 Edn. Edinburgh: Oliver og Boyd.

Fisher, R. A. (1937)., Design av Eksperimenter, 2. Edn. Edinburgh: Oliver og Boyd.

Fisher, R. A. (1973). Statistiske Metoder og Vitenskapelig Slutning, 3 Edn. London: Macmillan.

Mayo, D. (1996). Feil og Veksten av Eksperimentell Kunnskap. Chicago, ILLINOIS: University of Chicago Press.

Google Scholar

Melton, A. (1962). Redaksjonelle. J. Exp. Psychol. 64, 553-557. doi: 10.1037/h0045549

CrossRef Full Tekst

Åpne Vitenskap Samarbeid (2015). Estimering av reproduserbarheten for psykologisk vitenskap., Vitenskap 349:aac4716. doi: 10.1126/vitenskap.aac4716

CrossRef Full Tekst

Siden, P. (2014). Utover statistisk signifikans: Klinisk tolkning av rehabilitering forskningslitteraturen. Int. J. Sports Phys. Ther. 9:72.

PubMed Abstrakt | Google Scholar

Thompson, B. (1996). AERA redaksjonelle retningslinjer vedrørende statistisk hypotesetesting: tre foreslåtte reformer. Utdann. Res. 25, 26-30. doi: 10.2307/1176337

CrossRef Full Tekst | Google Scholar

Trafimow, D. (2017)., Ved hjelp av koeffisient av tillit for å gjøre den filosofiske bytte fra en posteriori til a priori slutningsstatistikk. Utdann. Psychol. Mål. 77, 831-854. doi: 10.1177/0013164416667977

CrossRef Full Tekst | Google Scholar

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *