Welcome to Our Website

Frontiers in Psychology (Čeština)

Mnozí vědci kritizovali nulovou hypotézu význam testování, i když mnozí bránili příliš (viz Balluerka et al., 2005, pro recenzi). Někdy se doporučuje snížit hladinu alfa na konzervativnější hodnotu, aby se snížila chybovost typu I. Například, Melton (1962) je editorem Journal of Experimental Social Psychology od 1950-1962, oblíbené alfa úrovni 0,01 v průběhu typický alfa 0.05 úrovni. V poslední době Benjamin et al., (2018), doporučuje se přesouvá do 0.005—v souladu s Melton komentář, že i na 0.01 úrovni nemusí být „dostatečně působivé“ na rozkaz publikace (str. 554). Kromě toho Benjamin et al. (2018) stanovil, že úroveň alfa 0.005 by měla být pro nová zjištění, ale byla nejasná ohledně toho, co dělat se zjištěními, která nejsou nová. I když ne nutně podpořil význam testování jako preferovaný inferenční statistické řízení (mnoho autorů zřejmě prospěch Bayesovské postupy), Benjamin et al. (2018) se tvrdí, že pomocí 0.,005 cutoff by opravit hodně z toho, co je špatně s testováním významnosti. Bohužel, jak budeme demonstrovat, problémy s významovými testy nemohou být důležitě zmírněny pouze tím, že mají konzervativnější kritérium odmítnutí, a některé problémy se zhoršují přijetím konzervativnějšího kritéria.

Začínáme s některými nároky ze strany Benjamina et al. (2018). Například napsali: „… změna prahové hodnoty P je jednoduchá, sladí se s výcvikem prováděným mnoha výzkumníky a může rychle dosáhnout širokého přijetí.,“Pokud je testování významů-na jakémkoli prahu hodnoty p-stejně špatně chybné, jak jej zachováme (viz také Amrhein et al., 2017; Grónsko, 2017), tyto důvody jsou zjevně nedostatečné k ospravedlnění pouhé změny mezní hodnoty. Zvažte další tvrzení: „nový práh významu pomůže vědcům a čtenářům přesněji porozumět a sdělit důkazy.“Ale pokud vědci porozumění a komunikace problémy s 0.05 práh, to je jasné, jak pomocí 0.005 práh bude eliminovat tyto problémy., A zvažte ještě další tvrzení: „Autoři a čtenáři mohou sami převzít iniciativu tím, popisu a interpretaci výsledků vhodnější s ohledem na nově navrhované definice statistické významnosti.“Opět není jasné, jak přijetí prahu 0.005 umožní autorům a čtenářům převzít iniciativu s ohledem na lepší interpretaci dat. Takže i před diskusí o našich hlavních argumentech existuje důvod, aby čtenář byl podezřelý z urychlených tvrzení bez empirické podpory.,

s výše uvedeným z cesty se domníváme, že základním problémem s testy významu je to, že cílem je odmítnout nulovou hypotézu. Tento cíl se zdá poptávky—pokud je Bayesian—posteriorní pravděpodobnosti, nulová hypotéza by měla být nízká vzhledem k získaných zjištění. Ale p-hodnota jeden získá, je pravděpodobnost nálezu, a více extrémní zjištění, vzhledem k tomu, že nulovou hypotézu a všechny ostatní předpoklady modelu byly správné (Greenland et al.,, 2016; Grónsko, 2017) a člověk by musel učinit neplatný inverzní závěr, aby dospěl k závěru o pravděpodobnosti nulové hypotézy vzhledem k nálezu. A pokud je frequentist, není tam žádný způsob, jak přejít logický rozdíl od pravděpodobnosti nalezení a více extrémní zjištění, vzhledem k tomu, nulová hypotéza, k rozhodnutí o tom, zda člověk by měl přijmout nebo odmítnout nulovou hypotézu (Briggs, 2016; Trafimow, 2017). Akceptujeme, že podle frekvenční logiky je pravděpodobnost chyby typu I skutečně nižší, pokud použijeme mezní hodnotu 0.005 pro p než mezní hodnotu 0.05, vše ostatní je stejné., Přijímáme také bayesovský argument Benjamina et al. (2018) že nulová hypotéza je méně pravděpodobná, pokud p = 0, 005, než pokud p = 0, 05, vše ostatní je stejné. Nakonec uznáváme, že Benjamin et al. (2018) poskytoval službu pro vědu tím, že dále stimuloval debatu o testování významu. Ale existují důležité otázky Benjamin et al. (2018) zdá se, že neuvažoval, diskutovány v následujících částech.,

Regrese a Opakovatelnost

Trafimow a Earp (2017) argumentoval proti obecné představě, nastavení alfa úrovni činit rozhodnutí, odmítnout, nebo odmítnout nulové hypotézy a argumenty si zachovávají svou platnost, i když hladina alfa je snížena na 0.005. V některých ohledech snížení zhoršuje záležitosti. Jedním z problémů je, že hodnoty p mají variabilitu vzorkování, stejně jako jiné statistiky (Cumming, 2012)., Ale p-hodnota je speciální v tom, že je navržen tak, aby vypadal jako čistý hluk, pokud nulovou hypotézu a všechny ostatní modelové předpoklady jsou správné, v případě, že p-hodnota je rovnoměrně rozložen na (Grónsko, 2018). Podle alternativní hypotézy je její rozložení posunuto směrem dolů, přičemž pravděpodobnost, že p klesne pod zvolený mez, je síla testu. Protože skutečná síla typických studií není příliš vysoká, pokud je alternativa správná, bude do značné míry otázkou štěstí, zda je vzorkovaná hodnota p pod zvolenou úrovní alfa., Když, jak je často případ, síla je mnohem nižší než 50% (Smaldino a McElreath, 2016), výzkumník je nepravděpodobné, že by re-vzorek, p-hodnota pod práh významnosti při replikaci, protože tam může být mnoho dalších p-hodnoty vyšší než pod práh v p-hodnota distribuce (Goodman, 1992; Senn, 2002; Halsey et al., 2015). Tento problém se zhoršuje, když je mezní hodnota snížena, protože pro konstantní velikost vzorku klesá výkon s mezní hodnotou.,

i když člověk nepoužil mezní hodnotu, fenomén regrese k průměru naznačuje, že hodnota p získaná v replikačním experimentu pravděpodobně ustoupí na jakoukoli střední hodnotu p, pokud by bylo provedeno mnoho replikací. Kolik regrese by mělo nastat? Když je nulová hypotéza nesprávná, závisí to na tom, jak variabilní jsou odhady bodů, a tedy hodnoty p.

variabilita p-hodnot navíc vede ke špatné korelaci mezi replikacemi., Na základě údajů uvedených on-line prostřednictvím Otevřené Spolupráce Vědy (2015; https://osf.io/fgjvw), Trafimow a de Boer (submitted) vypočtené korelace pouze 0.004 mezi p-hodnoty získané v původní kohorty studie s p-hodnoty získané v replikační kohorty, oproti očekávané korelace nulový, pokud jsou všechny null hypotéz a modelů používaných pro výpočet p-hodnoty byly správné (a tedy všechny p-hodnoty byly rovnoměrně rozloženy).,

Existuje několik možných důvodů pro nízkou korelaci, včetně toho, že většina zkoumaných sdružení může mít ve skutečnosti byly téměř nulové, tak, že p-hodnota zůstala především funkce hluk, a tak téměř nulová korelace by se dalo očekávat., Ale i když mnoho nebo většina sdružení byly daleko od null, tak řazení p-hodnoty směrem dolů k nule a vytváření pozitivní korelace na replikaci, že korelace zůstane nízká nejen kvůli velké náhodné chyby v p-hodnoty, ale také vzhledem k nedokonalé replikace metodiky a nelineární vztah mezi p-hodnoty a efekt velikosti („oprava“ korelace pro útlum z důvodu omezení rozsahu, v původní kohorty studie, zvyšuje korelace na 0.01, což je stále nízké)., Také, pokud se většina testovány nulové hypotézy byly nepravdivé, nízká p-hodnota, opakovatelnost, o čemž svědčí Otevřená Věda Spolupráce by mohla být připsána v části k zkreslení způsobené tím, že publikování kritérium na základě p-hodnoty (Locascio, 2017a; Amrhein a Grónsko, 2018)., Ale pokud jeden chce, aby se takové přiznání, i když to může poskytnout zdůvodnění pro použití p-hodnot v hypotetické vědecké vesmíru, kde p-hodnoty z false null jsou více opakovatelné kvůli nedostatku zkreslení, přidělení poskytuje ještě další důležitý důvod, aby se zabránilo jakékoliv publikování kritéria, na základě p-hodnoty nebo jiné statistické výsledky (Amrhein a Grónsko, 2018).,

získaná hodnota p v původní studii tedy nemá nic společného s hodnotou p získanou v replikačním experimentu (což je přesně to, co říká skutečná teorie hodnot p). Nejlepší predikcí by byla hodnota p pro replikační experiment, který je mnohem blíže průměru distribuce hodnoty p než hodnotě p získané v původním experimentu. Podle jakékoli hypotézy, čím nižší je hodnota p publikovaná v původním experimentu (např.,01), čím je pravděpodobnější, že představuje větší vzdálenost hodnoty p od průměru hodnoty p, což znamená zvýšenou regresi k průměru.

to Vše znamená, že binární rozhodnutí na základě p-hodnoty, o zamítnutí či nezamítnutí hypotézy, o síle důkazů (Fisher, 1925, 1973), nebo o závažnosti test (Mayo, 1996), bude nespolehlivé rozhodnutí. To by mohlo být argumentováno jako dobrý důvod, proč vůbec nepoužívat hodnoty p, nebo alespoň je nepoužívat k rozhodování o tom, zda posuzovat vědecké hypotézy jako správné (Amrhein et al., 2018).,

Error Sazby a Variabilní Alfa Úrovně

Další nevýhodou použití jakéhokoliv nastavení úrovně alfa pro zveřejnění je to, že relativní význam Typ i a Typ II chyby mohou lišit napříč studiemi v rámci nebo mezi oblastmi a výzkumných pracovníků (Trafimow a Earp, 2017). Nastavení úrovně deky buď 0.05 nebo 0.005, nebo cokoli jiného, nutí vědce předstírat, že relativní význam chyb typu I a typu II je konstantní. Benjamin et al. (2018) snažte se ospravedlnit jejich doporučení snížit na 0.,005 úroveň poukazem na několik oblastí vědy, které používají velmi nízké hladiny alfa, ale toto pozorování je stejně konzistentní s myšlenkou, že plošná úroveň napříč vědou je nežádoucí. A existují dobré důvody, proč je třeba očekávat rozdíly mezi poli a tématy: široká škála faktorů může ovlivnit relativní význam chyb typu I a typu II, čímž je jakékoli doporučení nežádoucí. Tyto faktory mohou zahrnovat jasnost teorie, pomocné předpoklady, praktické nebo aplikované obavy nebo experimentální přísnost., Miller a Ulrich (2016) skutečně ukázali, jak tyto a další faktory mají přímý vliv na konečnou výplatu výzkumu. Existuje působivá literatura potvrzující obtíže při nastavování doporučení na úrovni přikrývky(např., 1997; Citrony a Victor, 2008; Lieberman a Cunningham, 2009; Myhra, 2010; Rýže a Trafimow, 2010; Mudge et al., 2012; Lakens et al., 2018).

netvrdíme však, že každý výzkumník by měl pro každou studii nastavit vlastní úroveň alfa, jak doporučují Neyman a Pearson (1933) a Lakens et al., (2018), protože to má také problémy (Trafimow a Earp, 2017). Například, s proměnnou prahy, mnoho starých problémy s význam testování zůstávají nevyřešené, jako jsou problémy regrese k průměru p-hodnoty, inflace vliv velikosti („vítěz je prokletí,“ viz níže), selektivní podávání zpráv a zveřejňování zkreslení, a široké nevýhodou nutit rozhodnutí příliš rychle, spíše než s ohledem na kumulativní důkazy, přes experimenty. S ohledem na veškerou nejistotu kolem statistické inference (Grónsko, 2017, 2018; Amrhein et al.,, 2018), silně pochybujeme o tom, že bychom mohli úspěšně „kontrolovat“ chybovost, kdybychom ospravedlnili naši úroveň alfa a další rozhodnutí před studií, jako Lakens et al. (2018) zdá se, že ve svém komentáři naznačují Benjamin et al. (2018). Nicméně, Lakens et al. (2018) dospěl k závěru, že „výraz“ statisticky významný “ by se již neměl používat.“Souhlasíme, ale myslíme si, že testování významu s oprávněným alfa je stále testování významu, ať už se používá termín „význam“ nebo ne.,

vzhledem k tomu, že deka a variabilní hladiny alfa jsou oba problematické, je rozumné ne předefinovat statistickou významnost, ale zcela vynechat testování významnosti, jak navrhuje McShane et al. (2018) a Amrhein a Grónsko (2018), další dva připomínky Benjamina et al. (2018).

definování Replicability

další nevýhoda se týká toho, co Benjamin et al. (2018) nabízel jako hlavní výhodu jejich návrhu, který publikoval zjištění, bude více opakovatelné použití 0.005 než 0,05 hladina alfa., To závisí na tom, co se rozumí „replikovat“ (viz Lykken, 1968, pro některé definice). Pokud jeden trvá na stejné úrovni alfa pro původní studie a replikace studie, pak nevidíme žádný důvod věřit, že tam bude více úspěšných replikací pomocí 0.005 úrovni, než pomocí hladině 0,05. Ve skutečnosti, statistický regresní argument vyrobený dříve naznačuje, že regresní problém je ještě horší pomocí 0.005 než použití 0.05. Alternativně, jako Benjamin et al. (2018) zdá se, že by se dalo použít 0.005 pro původní studii a 0.05 pro replikační studii., V tomto případě souhlasíme s tím, že kombinace 0,005 a 0,05 vytvoří méně neúspěšných replikací než kombinace 0,05 a 0,05 pro počáteční a replikační studie. To však přichází za vysokou cenu v libovůle. Předpokládejme, že dvě studia v při p < 0,005 p < 0.05, resp. To by se počítalo jako úspěšná replikace. Naopak, předpokládejme, že dvě studia v při p < 0,05 a p < 0.005, resp., Počítá se pouze druhá studie a kombinace by nebyla kvalifikována jako označení úspěšné replikace. Trvá na tom, že nastavení cutoff 0,005 činí výzkum více napodobitelné by poptávka mnohem větší přesností, s ohledem na to, jak pojímat replikovatelnosti.

kromě toho nevidíme jediný úspěch nebo selhání replikace jako definitivní. Pokud si člověk přeje vytvořit silný případ úspěchu nebo neúspěchu replikace, je žádoucí více pokusů o replikaci. Jak je doloženo nedávnými úspěšnými replikačními studiemi v kognitivní psychologii (Zwaan et al.,, 2017) a společenské vědy (Mullinix et al., 2015), kvalita teorie a do jaké míry model předpoklady jsou splněny, bude důležitější vliv replikovatelnosti.

zpochybňování předpokladů

diskuse je zatím pod záminkou, že předpoklady, které jsou základem interpretace hodnot p, jsou pravdivé. Ale jak je to pravděpodobné? Berk a Freedman (2003) učinili silný případ, že předpoklady náhodného a nezávislého odběru vzorků z populace jsou zřídka pravdivé., Problémy jsou zvláště charakteristické v klinických věd, kde faleš předpoklady, stejně jako rozdíly mezi statistickou a klinickou významnost, jsou obzvláště zřejmý a dramatický (Bhardwaj et al., 2004; Ferrill et al., 2010; Fethney, 2010; Strana, 2014). Nicméně, statistické testy nejen testování hypotéz, ale nespočet předpoklady a celé prostředí, ve kterém výzkum probíhá (Grónsko, 2017, 2018; Amrhein et al., 2018)., Problém pravděpodobné, falešné předpoklady, v kombinaci s dalšími problémy, které se již diskutuje, činí iluzorní získávání pravdy z p-hodnot, nebo z jakékoliv jiné statistické metody, ještě více dramatické.

velikost efektu populace

pokračujme v otázkách významu a replikace a vraťme se k předstírání, že předpoklady modelu jsou správné, přičemž mějte na paměti, že je to nepravděpodobné. Vezměme si, že jako záležitosti nyní stojí pomocí testů významu s 0.,05 kritéria populační velikosti účinku hraje důležitou roli jak při získávání statistické významnosti (vše ostatní je stejné, vzorku, vliv velikosti bude větší, pokud populace vliv velikost je větší) a při získávání statistické významnosti dvakrát pro úspěšné replikace. Přepnutí na 0.005 cutoff by nesnižuje význam populace, vliv velikosti, a zvýšit jeho význam, pokud velikost vzorku podstatně zvýšil od těch aktuálně používaných. A existuje dobrý důvod odmítnout, že replikabilita by měla záviset na velikosti populačního efektu., Chcete-li to rychle vidět, zvažte jeden z nejdůležitějších vědeckých experimentů všech dob, Michelson a Morley (1887). Použili interferometr k testování, zda je vesmír naplněn luminiferous éter, který umožňuje světlo cestovat na Zemi z hvězd. Jejich velikost vzorkového efektu byla velmi malá a fyzici akceptují, že velikost populačního efektu je nulová, protože neexistuje žádný luminiferous ether. Použití tradičních testů významu buď s 0,05 nebo 0.,005 cutoff, replikace Michelsona a Morleyho by byla problematická (viz Sawilowsky, 2003, pro diskusi o tomto experimentu v souvislosti s testováním hypotéz). A přesto fyzici považují experiment za vysoce replikovatelný (viz také Meehl, 1967). Jakýkoli návrh, který obsahuje kritéria odmítnutí hodnoty p, nutí pravděpodobnost replikace ovlivnit velikost efektu populace, a proto musí být odmítnut, pokud přijmeme představu, že replikace by neměla záviset na velikosti efektu populace.

navíc s hladinou alfa 0.,005, velký vliv velikostí by být více důležité pro zveřejnění, a vědci se mohl opřít mnohem více směrem k „zjevné“ výzkum, než k testování kreativní nápady tam, kde je větší riziko malé efekty a p-hodnoty, které nesplňují 0.005 bar. Velmi pravděpodobně je důvod, proč jsou výsledky null tak obtížné publikovat ve vědách, jako je psychologie, protože tradice používání mezních hodnot p je tak zakořeněná. Bylo by prospěšné ukončit tuto tradici.,

Přesnost Publikovaných Vliv Velikosti

je žádoucí, aby zveřejnila fakta ve vědeckých textech přesně odrážet realitu. Zvažte znovu regresní problém. Čím přísnější je úroveň kritéria pro publikování, tím větší je vzdálenost od zjištění, které předává kritérium průměru, a tak dochází k rostoucímu regresnímu efektu. I v 0.,05 alpha úrovni, vědci již dlouho známo, že zveřejněné vliv velikosti pravděpodobně neodrážejí realitu, nebo alespoň ne skutečnost, že by bylo vidět, jestli tam bylo mnoho replikací každý experiment a všechny byly publikovány (viz Briggs, 2016; Grice, 2017; Hyman, 2017; Kline, 2017; Locascio, 2017a,b; Značky, roku 2017 na nedávné diskuse o tomto problém). V rozumných velikostech vzorků a přiměřených velikostech populačních efektů jsou to abnormálně velké velikosti vzorků, které vedou k hodnotám p, které splňují úroveň 0.05 nebo 0.,Úroveň 005 nebo jakákoli jiná alfa úroveň, jak je zřejmé z hlediska statistické regrese. A s typicky nízkými velikostmi vzorků jsou statisticky významné účinky často nadhodnoceny velikostí populačních efektů, které se nazývají „inflace velikosti efektu“, „inflace pravdy“ nebo „prokletí vítěze“ (Amrhein et al., 2017). Velikost účinku přecenění, byla empiricky prokázána v Otevřené Spolupráce Vědy (2015), kde průměrná velikost účinku v replikační kohorty studie byla dramaticky snížena z průměrné velikosti účinku v původní kohorty (z 0.403 na 0.197)., Změna na přísnější mezní hodnotu 0.005 by vedla k ještě horšímu nadhodnocení velikosti efektu (Button et al., 2013; Amrhein a Grónsko, 2018). Význam mají zveřejněné vliv velikosti přesně odrážet populace vliv velikosti rozporu používání prahových kritérií a význam zkoušky, a to v jakékoliv úrovni alfa.

Velikost Vzorku a Alternativy k Významu Testování

Musíme zdůraznit, že replikace závisí do značné míry na velikosti vzorku, ale tam jsou faktory, které interferují s vědci pomocí velké velikosti vzorku potřebné pro dobré vzorkování přesnost a opakovatelnost., Kromě zřejmých nákladů na získání velkých velikostí vzorků může dojít k nedocenění toho, kolik na velikosti vzorku záleží (Vankov et al., 2014), o významu pobídek k upřednostnění novosti před replikací (Nosek et al., 2012) a převládající mylné představy, že doplněk P-hodnot měří opakovatelnost (Cohen, 1994; Thompson, 1996; Grónsko a kol., 2016). Zaměření na velikost vzorku naznačuje alternativu k testování významnosti., Trafimow (2017; Trafimow a MacDonald, 2017) navrhl postup následující: výzkumník určuje, jak blízko si přeje, ukázkové statistiky, aby jejich odpovídajících populačních parametrů, a požadovanou pravděpodobnost, že blízcí. Trafimowovy rovnice lze použít k získání potřebné velikosti vzorku pro splnění této SPECIFIKACE blízkosti., Výzkumník tak získá potřebné velikosti vzorku, počítá popisné statistiky, a bere je jako přesné odhady populačních parametrů (předběžně na nová data, samozřejmě; optimální způsob, jak získat spolehlivý odhad je přes robustní metody, viz Huber, 1972; Tukey, 1979; Rousseeuw, 1991; Portnoy a On, 2000; Erceg-Hurn et al., 2013; Field and Wilcox, 2017). Podobné metody již dlouho existují, ve kterých je velikost vzorku založena na požadované maximální šířce pro intervaly spolehlivosti.,

Tato blízkost postupu, zdůrazňuje (a) rozhodování o tom, co je zapotřebí, aby se domnívají, že vzorek statistiky jsou dobré odhady parametrů základního souboru, než sběr dat, spíše než později, a (b) získat dostatečně velký vzorek, velikost, aby být jisti, že získaný vzorek statistiky jsou opravdu ve stanovených vzdálenostech odpovídajících populačních parametrů. Postup také nepodporuje publikační podjatost, protože neexistuje žádný limit pro rozhodnutí o zveřejnění., A blízkost postup není totéž jako tradiční výkon analýza: První, cílem tradiční mocenské analýzy je najít velikost vzorku potřebné mít dobrou šanci na získání statisticky významné p-hodnoty. Za druhé, tradiční analýza výkonu je silně ovlivněna očekávanou velikostí efektu, zatímco postup blízkosti není ovlivněn očekávanou velikostí efektu u normálních (Gaussovských) modelů.

větší bod je, že existují kreativní alternativy k testování významnosti, které konfrontují problém velikosti vzorku mnohem více přímo než testování významů., „Statistický toolbox“ (Gigerenzer a Marewski, 2015) dále zahrnuje například intervaly spolehlivosti (který by spíše měl být přejmenován a mohou být použity jako „kompatibilita intervalech“—viz Amrhein et al., 2018; Grónsko, 2018), testy ekvivalence, hodnoty p jako kontinuální opatření vyvracejících důkazů proti modelu (Grónsko, 2018), poměry pravděpodobnosti, Bayesovské metody nebo informační kritéria. A ve výrobních nebo kontrolních situacích může mít smysl i rozhodnutí Neyman-Pearson (Bradley and Brand, 2016).,

Ale pro vědecké zkoumání, žádný z těchto nástrojů by se měla stát nová kouzelná metoda dává jednoznačné mechanické odpovědi (Cohen, 1994), protože každý kritériem výběru bude ignorovat nejistoty ve prospěch binární rozhodování, a tím produkovat stejné problémy jako ty způsobené význam testování. Například použití prahu pro faktor Bayes bude mít za následek podobné dilema jako s prahem pro hodnotu p: jako Konijn et al. (2015) navrhl: „Bůh by miloval Bayesův faktor 3.01 téměř stejně jako Bayesův faktor 2.99.,“

konečně by závěr neměl být založen na jednotlivých studiích vůbec (Neyman a Pearson, 1933; Fisher, 1937; Grónsko, 2017), ani na replikacích ze stejné laboratoře, ale na kumulativních důkazech z několika nezávislých studií. Je žádoucí získat přesné odhady v těchto studiích, ale více důležitým cílem je eliminovat zkreslení, včetně široké intervaly spolehlivosti a malé účinky v literatuře, bez které kumulativní důkazy budou zkreslené (Amrhein et al., 2017, 2018; Amrhein a Grónsko, 2018)., Podél těchto linek, Briggs (2016) argumentuje pro opuštění parametru-based odvozování a přijímání čistě prediktivní, a proto ověřitelné, pravděpodobnostní modely, a Grónska (2017) vidí „zoufalé potřebě dostat pryč od inferenční statistiky a hew podrobněji na popisy studovat postupy, sběr dat , a výsledná data.“

závěr

zdá se vhodné uzavřít základní problém, který byl u nás od začátku., Měly by být hodnoty p a prahové hodnoty P nebo jakýkoli jiný statistický nástroj použity jako hlavní kritérium pro rozhodování o zveřejnění nebo rozhodnutí o přijetí nebo zamítnutí hypotéz? Pouhá skutečnost, že se vědci zabývají replikací, je však konceptualizována, naznačuje uznání, že jednotlivé studie jsou zřídka definitivní a zřídka ospravedlňují konečné rozhodnutí., Při hodnocení síly důkazů, sofistikované vědci považují, v sice subjektivní způsob, teoretické úvahy, jako je rozsah, vysvětlující šíři, a prediktivní sílu; za pomocné předpoklady připojení nonobservational podmínky v teorie pozorovací podmínky v empirické hypotézy; síla experimentální design, a důsledky pro aplikace. Chcete-li to vše uvařit na binární rozhodnutí založené na prahové hodnotě p 0,05, 0,01, 0,005 nebo cokoli jiného, není přijatelné.,

Autor Příspěvky

Všech uvedených autorů mají přímý příspěvek k papír nebo potvrdí její obsah, a to schválil ke zveřejnění.

Prohlášení o střetu zájmů

FK-N byl zaměstnán společností Oikostat GmbH. GM působí jako konzultant pro Janssen Research and Development, LLC.

ostatní autoři prohlašují, že výzkum byl proveden bez jakýchkoli obchodních nebo finančních vztahů, které by mohly být chápány jako potenciální střet zájmů.,

poděkování

děkujeme Sanderovi Grónsku a kluzišti Hoekstra za komentáře a diskuse. MG uznává podporu grantu VEGA 2/0047/15. RvdS byla podpořena grantem Nizozemské organizace pro vědecký výzkum: NWO-VIDI-45-14-006. Publikace byla finančně podpořena grantem 156294 od Švýcarské národní vědecké nadace do VA.

Bradley, M. T., and Brand, a. (2016). Význam testování potřebuje taxonomii: nebo jak Fisher, Neyman-Pearson kontroverze vyústila v inferenční ocas vrtí měření psa. Psychol. Rep. 119, 487-504., doi: 10.1177/0033294116662659

PubMed Abstract | CrossRef Full Text/Google Scholar

Briggs, W.m. (2016). Nejistota: duše modelování, Pravděpodobnost a statistiky. New York, NY: Springer.

Google Scholar

Cohen, J. (1994). Země je kulatá (p < 0.05). Rána. Psychol. 49, 997–1003.

Google Scholar

Fisher, R. a. (1925). Statistické metody pro výzkumné pracovníky, 1. Edn. Oliver a Boyd.

Fisher, R. a. (1937)., Návrh experimentů, 2. Edn. Oliver a Boyd.

Fisher, R. a. (1973). Statistické metody a vědecká Inference, 3. Edn. Londýn: Macmillan.

Mayo, D. (1996). Chyba a růst experimentálních znalostí. Chicago, IL: University of Chicago Press.

Google Scholar

Melton, a. (1962). Redakce. J.Exp. Psychol. 64, 553–557. doi: 10.1037/h0045549

CrossRef Full Text

Open Science Collaboration (2015). Odhad reprodukovatelnosti psychologické vědy., Věda 349:aac4716. doi: 10.1126 / věda.Aac4716

CrossRef Plný Text

stránka, P. (2014). Kromě statistické významnosti: klinická interpretace rehabilitační výzkumné literatury. Int. J. Sportovní Phys. Další. 9:72.

PubMed Abstract / Google Scholar

Thompson, B. (1996). Redakční politika AERA týkající se testování statistické významnosti: tři navrhované reformy. Educu. Res. 25, 26-30. doi: 10.2307/1176337

CrossRef Plný Text | Google Scholar

Trafimow, D. (2017)., Pomocí koeficientu důvěry, aby se filozofický přechod z posteriori a priori inferenciální statistiky. Educu. Psychol. Measi. 77, 831–854. doi: 10.1177 / 0013164416667977

CrossRef celý Text / Google Scholar

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *