Mulți cercetători au criticat ipoteza nulă testarea semnificației, deși mulți l-au apărat prea (a se vedea Balluerka et al., 2005, pentru o revizuire). Uneori, se recomandă ca nivelul alfa să fie redus la o valoare mai conservatoare, pentru a reduce rata de eroare de tip I. De exemplu, Melton (1962), editorul revistei de Psihologie Socială Experimentală din 1950-1962, a favorizat un nivel alfa de 0, 01 peste nivelul alfa tipic de 0, 05. Mai recent, Benjamin și colab., (2018) a recomandat trecerea la 0.005—în concordanță cu comentariul lui Melton că chiar și nivelul 0.01 ar putea să nu fie „suficient de impresionant” pentru a justifica publicarea (p. 554). În plus, Benjamin și colab. (2018) a stipulat că nivelul alfa 0.005 ar trebui să fie pentru noi descoperiri, dar au fost vagi cu privire la ce să facă cu constatările care nu sunt noi. Deși nu aprobă neapărat testarea semnificației ca procedură statistică inferențială preferată (mulți dintre autori favorizează aparent procedurile Bayesiene), Benjamin et al. (2018) a susținut că folosind un 0.,005 cutoff ar rezolva o mare parte din ceea ce este în neregulă cu testarea semnificație. Din păcate, așa cum vom demonstra, problemele legate de testele de semnificație nu pot fi atenuate în mod important doar printr-un criteriu de respingere mai conservator, iar unele probleme sunt exacerbate prin adoptarea unui criteriu mai conservator.
începem cu unele pretenții din partea lui Benjamin și colab. (2018). De exemplu, ei au scris „…schimbarea pragului valorii P este simplă, se aliniază instruirii întreprinse de mulți cercetători și ar putea obține rapid o acceptare largă.,”Dacă testarea semnificației—la orice prag de valoare p-este la fel de defectuoasă pe cât o vom menține (a se vedea, de asemenea, Amrhein et al., 2017; Groenlanda, 2017), aceste motive sunt în mod clar insuficiente pentru a justifica simpla modificare a cutoff-ului. Luați în considerare o altă afirmație: „noul prag de semnificație va ajuta cercetătorii și cititorii să înțeleagă și să comunice mai exact dovezile.”Dar dacă cercetătorii au probleme de înțelegere și comunicare cu un prag de 0, 05, nu este clar cum utilizarea unui prag de 0, 005 va elimina aceste probleme., Și luați în considerare încă o afirmație: „autorii și cititorii pot lua ei înșiși inițiativa descriind și interpretând rezultatele mai adecvat în lumina noii definiții propuse a semnificației statistice.”Din nou, nu este clar modul de adoptare a unui 0.005 prag va permite autorii și cititorii să ia inițiativa cu privire la o mai bună interpretare a datelor. Astfel, chiar înainte de o discuție a argumentelor noastre principale, există motive ca cititorul să fie suspect de afirmații pripite, fără sprijin empiric.,cu cele de mai sus din drum, consideră că o problemă de bază cu teste de semnificație este că scopul este de a respinge o ipoteză nulă. Acest obiectiv pare să ceară—dacă unul este Bayesian-că probabilitatea posterioară a ipotezei nule ar trebui să fie scăzută, având în vedere constatarea obținută. Dar valoarea p obținută este probabilitatea constatării și a constatărilor mai extreme, având în vedere că ipoteza nulă și toate celelalte ipoteze despre model au fost corecte (Groenlanda et al.,, 2016; Groenlanda, 2017) și ar trebui să se facă o inferență inversă nevalidă pentru a trage o concluzie cu privire la probabilitatea ipotezei nule, având în vedere constatarea. Și dacă unul este un frequentist, nu există nici o modalitate de a traversa logic diferența de probabilitate de a găsi și de mai extreme constatări, având în vedere ipoteza nulă, pentru o decizie cu privire la dacă ar trebui să accepte sau să respingă ipoteza nulă (Briggs, 2016; Trafimow, 2017). Acceptăm că, prin logica frequentist, probabilitatea unei erori de tip I este într-adevăr mai mică dacă folosim un 0.005 cutoff pentru p decât un 0.05 cutoff, toate celelalte fiind egale., De asemenea, acceptăm argumentul Bayesian de Benjamin et al. (2018) că ipoteza nulă este mai puțin probabilă dacă p = 0.005 decât dacă p = 0.05, toate celelalte fiind egale. În cele din urmă, recunoaștem că Benjamin et al. (2018) a oferit un serviciu pentru știință prin stimularea în continuare a dezbaterii despre testarea semnificației. Dar există probleme importante Benjamin și colab. (2018) nu par să fi luat în considerare, discutate în secțiunile următoare.,Trafimow and Earp (2017) au argumentat împotriva noțiunii generale de stabilire a unui nivel alfa pentru a lua decizii de respingere sau nu de respingere a ipotezelor nule, iar argumentele își păstrează forța chiar dacă nivelul alfa este redus la 0,005. În unele privințe, reducerea agravează problemele. O problemă este că valorile p au variabilitate de eșantionare, la fel ca și alte statistici (Cumming, 2012)., Dar valoarea p este specială prin faptul că este proiectată să arate ca un zgomot pur dacă ipoteza nulă și toate celelalte ipoteze ale modelului sunt corecte, pentru că în acest caz valoarea p este distribuită uniform pe (Groenlanda, 2018). Sub o ipoteză alternativă, distribuția sa este deplasată în jos, probabilitatea ca p să scadă sub limita aleasă fiind puterea testului. Deoarece puterea reală a studiilor tipice nu este foarte mare, atunci când alternativa este corectă, va fi în mare măsură o chestiune de noroc dacă valoarea p eșantionată este sub nivelul alfa ales., Atunci când, așa cum este adesea cazul, puterea este mult sub 50% (Smaldino și McElreath, 2016), cercetătorul este puțin probabil să re-probă de o valoare p mai jos un prag de semnificație la replicare, ca pot exista mai multe valori p mai sus decât sub prag în p-valoarea de distribuție (Goodman, 1992; Senn, 2002; Halsey et al., 2015). Această problemă se agravează pe măsură ce cutoff-ul este redus, deoarece pentru o dimensiune constantă a eșantionului, puterea scade odată cu cutoff-ul.,
chiar dacă nu s-a folosit o limită, fenomenul de regresie la medie sugerează că valoarea p obținută într-un experiment de replicare este probabil să regreseze la oricare ar fi valoarea p medie dacă s-ar efectua multe replicări. Cât de mult ar trebui să apară regresia? Când ipoteza nulă este incorectă, aceasta depinde de cât de variabilă este estimările punctului și, astfel, valorile p sunt.mai mult, variabilitatea valorilor p are ca rezultat o corelație slabă între replicări., Pe baza datelor introduse on-line de Știință Deschisă de Colaborare (2015; https://osf.io/fgjvw), Trafimow și de Boer (a prezentat) a calculat o corelație de doar 0.004 între valorile p obținute în original cohorta de studii cu valorile p obținute în replicare cohortă, în comparație cu temperatura de corelație de zero dacă toate ipotezele nule și modele utilizate pentru a calcula valorile p au fost corecte (și, astfel, toate valorile p au fost uniform distribuite).,există mai multe motive posibile pentru corelația scăzută, inclusiv faptul că majoritatea asociațiilor studiate pot fi de fapt aproape nule, astfel încât valorile p au rămas în primul rând o funcție de zgomot și, prin urmare, ar trebui să fie de așteptat o corelație aproape zero., Dar chiar dacă multe sau cele mai multe dintre asociațiile au fost departe de nul, astfel, trecerea de la valorile p în jos spre zero și de a crea o corelație pozitivă pe de replicare, care de corelație va rămâne scăzută din cauza nu numai la mare eroare aleatoare în p-valori, dar, de asemenea, ca urmare a imperfecte replicare metodologia și neliniare relația dintre valorile p și mărimea efectului („corectarea” corelația de atenuare ca urmare a restrângerii de gamă, în original cohorta de studii, crește în corelație cu 0.01, care este încă scăzut)., De asemenea, dacă cele mai multe dintre testat ipotezelor nule au fost false, mici p-valoarea de reproductibilitate după cum reiese din Știință Deschisă de Colaborare ar putea fi atribuită, în parte, la publicarea părtinitoare cauzate de a avea o editură criteriu bazat pe valorile p (Locascio, 2017a; Amrhein și Groenlanda, 2018)., Dar dacă cineva dorește să facă o astfel de atribuire, deși poate oferi o justificare pentru utilizarea p-valori într-un ipotetic univers științific, unde p-valori de cele false null-uri sunt mai reproductibile, din cauza lipsei de publicarea părtinitoare, atribuirea oferă încă un alt motiv important pentru a evita orice fel de publicarea criteriilor pe baza p-valori sau alte rezultate statistice (Amrhein și Groenlanda, 2018).,astfel, valoarea p obținută într-un studiu original nu are nimic de-a face cu valoarea p obținută într-un experiment de replicare (care este exact ceea ce spune teoria reală a valorilor p ar trebui să fie cazul). Cea mai bună predicție ar fi o valoare p pentru experimentul de replicare fiind mult mai aproape de media distribuției valorii p decât de valoarea p obținută în experimentul inițial. Sub orice ipoteză, cea mai mică valoarea p publicată în experimentul inițial (de exemplu, 0,001, mai degrabă decât 0.,01), cu atât este mai probabil ca aceasta să reprezinte o distanță mai mare a valorii p față de Media valorii p, ceea ce implică o regresie crescută la medie.toate acestea înseamnă că deciziile binare, bazate pe valorile p, despre respingerea sau acceptarea ipotezelor, despre puterea dovezilor (Fisher, 1925, 1973) sau despre severitatea testului (Mayo, 1996), vor fi decizii nesigure. Acest lucru ar putea fi argumentat a fi un motiv bun pentru a nu folosi deloc valorile p sau cel puțin pentru a nu le folosi pentru a lua decizii cu privire la judecarea sau nu a ipotezelor științifice ca fiind corecte (Amrhein et al., 2018).,
Ratele de Eroare și Variabila Alpha Niveluri
un Alt dezavantaj al folosind orice setați nivelul alfa pentru publicare este că importanța relativă de Tip I și erori de Tipul II ar putea diferă de studii în cadrul sau între zone și cercetători (Trafimow și Earp, 2017). Setarea unui nivel de pătură de 0,05 sau 0,005, sau orice altceva, obligă cercetătorii să pretindă că importanța relativă a erorilor de tip I și de tip II este constantă. Benjamin și colab. (2018) încercați să justifice recomandarea lor de a reduce la 0.,Nivelul 005 subliniind câteva domenii ale științei care utilizează niveluri alfa foarte scăzute, dar această observație este la fel de consistentă cu ideea că un nivel de pătură în știință este nedorit. Și există motive întemeiate pentru care este de așteptat variația între domenii și subiecte: o mare varietate de factori pot influența importanța relativă a erorilor de tip I și de tip II, făcând astfel orice recomandare generală nedorită. Acești factori pot include claritatea teoriei, ipoteze auxiliare, preocupări practice sau aplicate sau rigoare experimentală., Într-adevăr, Miller și Ulrich (2016) au arătat modul în care acești și alți factori au o influență directă asupra plății finale a cercetării. Există o literatură impresionantă care atestă dificultățile în stabilirea unei recomandări la nivel de pătură (de exemplu, Buhl-Mortensen, 1996; Lemons et al., 1997; lămâi și Victor, 2008; Lieberman și Cunningham, 2009; Myhr, 2010; Rice și Trafimow, 2010; Mudge și colab., 2012; Lakens și colab., 2018).cu toate acestea, nu susținem că fiecare cercetător ar trebui să-și stabilească propriul nivel alfa pentru fiecare studiu, așa cum recomandă Neyman și Pearson (1933) și Lakens et al., (2018), pentru că și asta are probleme (Trafimow și Earp, 2017). De exemplu, cu variabile praguri, multe probleme vechi cu testarea semnificației rămân nerezolvate, cum ar fi problemele de regresie către medie de valorile p, inflația de efect dimensiuni („câștigătorul blestemul lui,” a se vedea mai jos), selectiv raportarea și publicarea părtinitoare, și în general dezavantaj al forțând decizii prea repede, mai degrabă decât având în vedere cumulativ probe de-a lungul experimente. Având în vedere toată incertitudinea din jurul inferenței statistice (Groenlanda, 2017, 2018; Amrhein et al.,, 2018), ne îndoim cu tărie că am putea „controla” cu succes ratele de eroare dacă ne-am justifica nivelul alfa și alte decizii înainte de un studiu, ca Lakens et al. (2018) par să sugereze în comentariul lor lui Benjamin et al. (2018). Cu toate acestea, Lakens și colab. (2018) concluzionează că „termenul” semnificativ statistic ” nu mai trebuie utilizat.”Suntem de acord, dar credem că testarea semnificației cu un alfa justificat este încă testarea semnificației, indiferent dacă termenul „semnificație” este folosit sau nu.,având în vedere că nivelurile blanket și variable alpha ambele sunt problematice, este sensibil să nu redefinim semnificația statistică, ci să renunțăm cu totul la testarea semnificației, așa cum a sugerat McShane et al. (2018) și Amrhein and Groenlanda (2018), alte două comentarii către Benjamin și colab. (2018).
definirea Replicabilității
încă un alt dezavantaj se referă la ceea ce Benjamin et al. (2018) touted ca principalul avantaj al propunerii lor, că rezultatele publicate vor fi mai replicabile folosind 0.005 decât nivelul alfa 0.05., Aceasta depinde de ceea ce se înțelege prin „replicare” (vezi Lykken, 1968, pentru unele definiții). Dacă cineva insistă asupra aceluiași nivel alfa pentru studiul inițial și studiul de replicare, atunci nu vedem niciun motiv să credem că vor exista mai multe replicări de succes folosind nivelul 0.005 decât folosind nivelul 0.05. De fapt, argumentul de regresie statistică făcut mai devreme sugerează că problema de regresie se face chiar mai rău folosind 0.005 decât folosind 0.05. Alternativ, ca Benjamin și colab. (2018) par să sugereze că s-ar putea folosi 0.005 pentru studiul inițial și 0.05 pentru studiul de replicare., În acest caz, suntem de acord că combinația de 0,005 și 0,05 va crea mai puține replici nereușite decât combinația de 0,05 și 0,05 pentru studiile inițiale și, respectiv, de replicare. Cu toate acestea, acest lucru vine la un preț ridicat în arbitrar. Să presupunem că două studii vin în la p < 0,005 și p < 0,05, respectiv. Acest lucru ar conta ca o replicare de succes. În contrast, să presupunem că cele două studii vin în la p < 0,05 și p < 0.005, respectiv., Numai al doilea studiu ar conta, iar combinația nu s-ar califica ca indicând o replicare reușită. Insistând că stabilirea unui cutoff de 0.005 face ca cercetarea să fie mai replicabilă ar necesita mult mai multă specificitate în ceea ce privește modul de conceptualizare a replicabilității.în plus ,nu vedem un singur succes sau eșec de replicare ca fiind definitiv. Dacă cineva dorește să facă un caz puternic pentru succesul sau eșecul replicării, sunt de dorit mai multe încercări de replicare. După cum atestă studiile recente de replicare de succes în psihologia cognitivă (Zwaan et al.,, 2017) și științe Sociale (Mullinix et al., 2015), calitatea teoriei și gradul în care sunt îndeplinite ipotezele modelului vor influența în mod important replicabilitatea.
chestionarea ipotezelor
discuția de până acum este sub pretextul că ipotezele care stau la baza interpretării valorilor p sunt adevărate. Dar cât de probabil este acest lucru? Berk and Freedman (2003) au făcut un caz puternic că ipotezele eșantionării aleatorii și independente de la o populație sunt rareori adevărate., Problemele sunt deosebit de importante în științele clinice, unde falsitatea ipotezelor, precum și divergențele dintre semnificația statistică și clinică, sunt deosebit de evidente și dramatice (Bhardwaj et al., 2004; Ferrill și colab., 2010; Fethney, 2010; Pagina, 2014). Cu toate acestea, testele statistice nu numai că testează ipoteze, ci nenumărate ipoteze și întregul mediu în care se desfășoară cercetarea (Groenlanda, 2017, 2018; Amrhein et al., 2018)., Problema ipotezelor false probabile, în combinație cu celelalte probleme deja discutate, face ca prinderea iluzorie a adevărului din valorile p sau din orice altă metodă statistică să fie și mai dramatică.
dimensiunea efectului populației
să continuăm cu problemele de semnificație și replicare, revenind la pretenția că ipotezele modelului sunt corecte, ținând cont în același timp că acest lucru este puțin probabil. Luați în considerare faptul că, deoarece problemele stau acum folosind teste de semnificație cu 0.,05, mărimea efectului populației joacă un rol important atât în obținerea semnificației statistice (toate celelalte fiind egale, mărimea efectului eșantionului va fi mai mare dacă dimensiunea efectului populației este mai mare), cât și în obținerea semnificației statistice de două ori pentru o replicare reușită. Trecerea la limita de 0,005 nu ar diminua importanța dimensiunii efectului populației și ar crește importanța acesteia, cu excepția cazului în care dimensiunile eșantionului au crescut substanțial față de cele utilizate în prezent. Și există motive întemeiate pentru a respinge faptul că replicabilitatea ar trebui să depindă de dimensiunea efectului populației., Pentru a vedea acest lucru rapid, luați în considerare unul dintre cele mai importante experimente științifice din toate timpurile, de Michelson și Morley (1887). Ei și-au folosit interferometrul pentru a testa dacă universul este umplut cu un eter luminifer care permite luminii să călătorească pe Pământ de la stele. Dimensiunea efectului eșantionului a fost foarte mică, iar fizicienii acceptă că dimensiunea efectului populației este zero, deoarece nu există eter luminifer. Folosind teste tradiționale de semnificație fie cu un 0.05 sau 0.,005 cutoff, replicarea Michelson și Morley ar fi problematică (a se vedea Sawilowsky, 2003, pentru o discuție a acestui experiment în contextul testării ipotezelor). Și totuși, fizicienii consideră că experimentul este foarte replicabil (vezi și Meehl, 1967). Orice propunere care prezintă criterii de respingere a valorii p forțează probabilitatea de replicare să fie afectată de mărimea efectului populației și deci trebuie respinsă dacă acceptăm ideea că replicabilitatea nu ar trebui să depindă de mărimea efectului populației.
În plus, cu un nivel alfa de 0.,005, dimensiunile mari ale efectului ar fi mai importante pentru publicare, iar cercetătorii s-ar putea apleca mult mai mult spre cercetarea „evidentă” decât spre testarea ideilor creative în care există mai mult risc de efecte mici și de valori p care nu reușesc să îndeplinească bara 0.005. Foarte probabil, un motiv null rezultatele sunt atât de dificil de a publica în științe precum psihologia este pentru că tradiția de a folosi p-valoarea cutoffs este atât de înrădăcinat. Ar fi benefic să punem capăt acestei tradiții.,este de dorit ca faptele publicate în literaturile științifice să reflecte cu exactitate realitatea. Luați în considerare din nou problema regresiei. Cu cât este mai strict nivelul criteriului pentru publicare, cu atât mai multă distanță există de la o constatare care trece criteriul la medie și astfel există un efect de regresie în creștere. Chiar și la 0.,05 nivelul alfa, cercetatorii au recunoscut de mult timp că publicate de mărimi ale efectului probabil nu reflectă realitatea, sau cel puțin nu la realitate, care ar fi de văzut dacă au fost multe replici de fiecare experiment și toate au fost publicate (vezi Briggs, 2016; Grice, 2017; Hyman, 2017; Kline, 2017; Locascio, 2017a,b; Mărci, 2017 pentru o discuție recentă de această problemă). Sub dimensiuni rezonabile ale eșantionului și dimensiuni rezonabile ale efectului populației, dimensiunile anormal de mari ale efectului eșantionului au ca rezultat valori p care îndeplinesc nivelul 0.05 sau 0.,Nivelul 005 sau orice alt nivel alfa, așa cum este evident din punctul de vedere al regresiei statistice. Și cu dimensiuni de eșantion de obicei mici, efectele semnificative statistic sunt adesea supraestimate ale dimensiunilor efectului populației, care se numește „inflația dimensiunii efectului”, „inflația adevărului” sau „blestemul câștigătorului” (Amrhein et al., 2017). Supraestimarea dimensiunii efectului a fost demonstrată empiric în colaborarea Open Science (2015), unde dimensiunea medie a efectului în cohorta de replicare a studiilor a fost redusă dramatic de la dimensiunea medie a efectului în cohorta inițială (de la 0,403 la 0,197)., Schimbarea la o reducere mai strictă de 0.005 ar duce la o supraestimare a dimensiunii efectului, dar mai gravă (Button et al., 2013; Amrhein și Groenlanda, 2018). Importanța publicării dimensiunilor efectului reflectă cu exactitate dimensiunile efectului populației contrazice utilizarea criteriilor de prag și a testelor de semnificație, la orice nivel alfa.
dimensiunea eșantionului și alternative la testarea semnificației
subliniem că replicarea depinde în mare măsură de dimensiunea eșantionului, dar există factori care interferează cu cercetătorii care folosesc dimensiunile mari ale eșantionului necesare pentru o bună precizie de eșantionare și replicabilitate., În plus față de costurile evidente de obținere a unor dimensiuni mari ale eșantionului, poate exista o subapreciere a dimensiunii eșantionului (Vankov et al., 2014), a importanței stimulentelor pentru a favoriza noutatea asupra replicabilității (Nosek et al., 2012) și a unei concepții greșite predominante că complementul valorilor p măsoară replicabilitatea (Cohen, 1994; Thompson, 1996; Groenlanda și colab., 2016). Un accent pe dimensiunea eșantionului sugerează o alternativă la testarea semnificației., Trafimow (2017; Trafimow și MacDonald, 2017) a propus o procedură, după cum urmează: cercetător precizează cât de aproape de ea dorește ca datele statistice să fie corespunzătoare parametrilor populației, și a dorit probabilitatea de a fi atât de aproape. Ecuațiile Trafimow pot fi utilizate pentru a obține dimensiunea eșantionului necesar pentru a îndeplini această specificație de apropiere., Cercetătorul apoi obține necesar dimensiunea eșantionului, calculează statistica descriptivă, și ia-le cât mai exacte estimări ale parametrilor populației (provizoriu pe date noi, desigur, o modalitate optimă de a obține de încredere estimarea se face prin metode fiabile, vezi Huber, 1972; Tukey, 1979; Rousseeuw, 1991; Portnoy și El, 2000; Erceg-Hurn et al., 2013; Field și Wilcox, 2017). Metode similare au existat de mult timp în care dimensiunea eșantionului se bazează pe lățimea maximă dorită pentru intervalele de încredere.,
Această apropiere procedură (a) de a decide ceea ce este nevoie să cred că eșantionul statisticile sunt bune estimări ale parametrilor populației înainte de colectarea datelor, mai degrabă decât după aceea, și (b) obținerea unui eșantion suficient de mare pentru a fi siguri că eșantionul obținut statistici sunt într-adevăr în anumite distanțe corespunzătoare parametrilor populației. De asemenea, procedura nu promovează părtinirea publicării, deoarece nu există o limită pentru deciziile de publicare., Și procedura de apropiere nu este aceeași cu analiza tradițională a puterii: în primul rând, scopul analizei tradiționale a puterii este de a găsi dimensiunea eșantionului necesară pentru a avea o șansă bună de a obține o valoare p semnificativă statistic. În al doilea rând, analiza tradițională a puterii este puternic influențată de dimensiunea efectului așteptat, în timp ce procedura de apropiere nu este influențată de dimensiunea efectului așteptat sub modelele normale (gaussiene).ideea mai mare este că există alternative creative la testarea semnificației care se confruntă cu problema dimensiunii eșantionului mult mai direct decât testarea semnificației., „Statistic toolbox” (Gigerenzer și Marewski, 2015) mai include, de exemplu, intervale de încredere (care mai degrabă ar trebui să fie redenumit și să fie folosit ca „compatibilitate intervale”—a se vedea Amrhein et al., 2018; Groenlanda, 2018), teste de echivalență, valori p ca măsuri continue de dovezi de respingere împotriva unui model (Groenlanda, 2018), rapoarte de probabilitate, metode Bayesiene sau criterii de informare. Și în situațiile de fabricație sau de control al calității, deciziile Neyman-Pearson pot avea sens (Bradley and Brand, 2016).,dar pentru explorarea științifică, niciunul dintre aceste instrumente nu ar trebui să devină noua metodă magică care să ofere răspunsuri mecanice clare (Cohen, 1994), deoarece fiecare criteriu de selecție va ignora incertitudinea în favoarea luării deciziilor binare și astfel va produce aceleași probleme ca cele cauzate de testarea semnificației. Utilizarea unui prag pentru factorul Bayes, de exemplu, va duce la o dilemă similară cu cea a unui prag pentru valoarea p: ca Konijn et al. (2015) a sugerat: „Dumnezeu ar iubi un factor Bayes de 3.01 aproape la fel de mult ca un factor Bayes de 2.99.,în cele din urmă, inferența nu ar trebui să se bazeze deloc pe studii unice (Neyman și Pearson, 1933; Fisher, 1937; Groenlanda, 2017), Nici pe replicări din același laborator, ci pe dovezi cumulative din mai multe studii independente. Este de dorit să se obțină estimări precise în aceste studii, dar mai important obiectiv este de a elimina publicarea părtinitoare prin includerea largă de intervale de încredere și efecte mici în literatura de specialitate, fără de care cumulativă probă va fi distorsionată (Amrhein et al., 2017, 2018; Amrhein și Groenlanda, 2018)., De-a lungul acestor linii, Briggs (2016) pledează pentru abandonarea parametru bazat pe inferență și adoptarea pur predictivă, și, prin urmare, verificabile, probabilitatea de modele, și Groenlanda (2017) vede „o mare nevoie pentru a obține departe de statistică inferențială și hew mai atent la descrieri de studiu procedurile de colectare a datelor , precum și datele rezultate.”
concluzie
pare oportun să se încheie cu problema de bază care a fost cu noi de la început., Ar trebui ca valorile p și pragurile valorii p, sau orice alt instrument statistic, să fie utilizate ca criteriu principal pentru luarea deciziilor de publicare sau a deciziilor privind acceptarea sau respingerea ipotezelor? Simplul fapt că cercetătorii sunt preocupați de replicare, totuși este conceptualizat, indică o apreciere că studiile unice sunt rareori definitive și rareori justifică o decizie finală., Atunci când se evaluează puterea de probă, sofisticat cercetători consideră, în o, desigur, subiective fel, considerații teoretice, cum ar fi domeniul de aplicare, explicative lățime, și puterea de predicție; valoarea de auxiliar ipoteze conectarea nonobservational termeni în teorii pentru a observaționale termeni în ipoteze empirice; puterea de design experimental; și implicațiile pentru aplicații. A reduce toate acestea la o decizie binară bazată pe un prag de valoare p de 0,05, 0,01, 0,005 sau orice altceva nu este acceptabil.,
contribuții ale autorilor
toți autorii enumerați au avut o contribuție directă la lucrare sau au aprobat conținutul acesteia și l-au aprobat pentru publicare.
Declarație privind conflictul de interese
FK-N a fost angajat de Oikostat GmbH. GM a fost în calitate de consultant pentru Janssen cercetare și dezvoltare, LLC.ceilalți autori declară că cercetarea a fost efectuată în absența oricăror relații comerciale sau financiare care ar putea fi interpretate ca un potențial conflict de interese.,
mulțumiri
mulțumim Sander Groenlanda și Rink Hoekstra pentru comentarii și discuții. MG recunoaște sprijinul acordat de VEGA 2/0047/15 grant. RvdS a fost susținut printr-un grant din partea organizației Olandeze pentru cercetare științifică: NWO-VIDI-45-14-006. Publicarea a fost susținută financiar de grant 156294 de la Swiss National Science Foundation la VA.
Bradley, M. T., and Brand, A. (2016). Testarea semnificației are nevoie de o taxonomie: sau cum controversa Fisher, Neyman-Pearson a dus la coada inferențială care a dat câinele de măsurare. Psiholoc. Rep. 119, 487-504., doi: 10.1177/0033294116662659
PubMed Abstract | CrossRef Textul Complet | Google Scholar
Briggs, W. M. (2016). Incertitudine: sufletul modelării, probabilității și statisticilor. New York, NY: Springer.Google Scholar
Cohen, J. (1994). Pământul este rotund (p < 0.05). Am. Psiholoc. 49, 997–1003.Google Scholar
Fisher, R. A. (1925). Metode statistice pentru lucrătorii de cercetare, 1st Edn. Edinburgh: Oliver și Boyd.
Fisher, R. A. (1937)., Proiectarea experimentelor, a 2-a Edn. Edinburgh: Oliver și Boyd.
Fisher, R. A. (1973). Metode statistice și inferență științifică, 3rd Edn. Londra: Macmillan.
Mayo, D. (1996). Eroare și creșterea cunoștințelor experimentale. Chicago, IL: Universitatea din Chicago Press.Google Scholar
Melton, A. (1962). Editorial. J. Exp. Psiholoc. 64, 553–557. doi: 10.1037/h0045549
CrossRef Textul Complet
Deschide Știință Colaborare (2015). Estimarea reproductibilității științei psihologice., Știință 349: aac4716. doi: 10.1126 / știință.aac4716
CrossRef text complet
pagină, P. (2014). Dincolo de semnificația statistică: interpretarea clinică a literaturii de cercetare de reabilitare. Int. J. Fizică Sportivă. Acolo. 9:72.în 1996, în 1996, a fost lansat un nou album de studio. Politicile editoriale AERA privind testarea semnificației statistice: trei reforme sugerate. Educă. Rez. 25, 26-30. doi: 10.2307/1176337
CrossRef Textul Complet | Google Scholar
Trafimow, D. (2017)., Folosind coeficientul de încredere pentru a face trecerea filosofică de la statisticile inferențiale a posteriori la a priori. Educă. Psiholoc. Meas. 77, 831–854. doi: 10.1177 / 0013164416667977
CrossRef Full Text / Google Scholar