Welcome to Our Website

határok a pszichológiában

sok kutató kritizálta a null hipotézis szignifikancia tesztelését, bár sokan azt is megvédték (lásd Balluerka et al., 2005, felülvizsgálatra). Néha javasoljuk, hogy az alfa-szintet konzervatívabb értékre csökkentse az I. típusú hibaarány csökkentése érdekében. Például Melton (1962), a Journal of Experimental Social Psychology szerkesztője 1950-1962 között 0,01 alfa-szintet részesítette előnyben a tipikus 0,05 alfa-szint felett. Újabban Benjamin et al., (2018) ajánlott váltás 0.005—összhangban Melton megjegyzésével, hogy még a 0.01 szint nem lehet “kellően lenyűgöző”, hogy indokolja közzététel (p. 554). Ezen kívül Benjamin et al. (2018) előírta, hogy az 0.005 alfa-szintnek új megállapításoknak kell lennie, de homályosak voltak abban, hogy mit kell tenni a nem új megállapításokkal. Bár nem feltétlenül támogatja a szignifikancia tesztelést, mint az előnyben részesített inferenciális statisztikai eljárást (sok szerző nyilvánvalóan támogatja a Bayesiai eljárásokat), Benjamin et al. (2018)azt állította, hogy a 0.,005 cutoff javítaná sok, mi a baj jelentősége tesztelés. Sajnos, amint azt bizonyítani fogjuk, a szignifikáns tesztekkel kapcsolatos problémákat nem lehet csupán egy konzervatívabb elutasítási kritériummal enyhíteni, és néhány problémát súlyosbít egy konzervatívabb kritérium elfogadása.

kezdjük néhány állítások részéről Benjamin et al. (2018). Például azt írták: “… a P értékküszöb megváltoztatása egyszerű, igazodik a sok kutató által végzett képzéshez, és gyorsan elérheti a széles körű elfogadottságot.,”Ha a szignifikancia-tesztelés-bármely p-érték küszöbértéken-ugyanolyan rosszul hibás, mint amit fenn fogunk tartani (Lásd még Amrhein et al., 2017; Grönland, 2017), ezek az okok nyilvánvalóan nem elégségesek ahhoz, hogy pusztán a levágás megváltoztatását indokolják. Vegyünk egy másik állítást: “az új jelentési küszöb segíteni fog a kutatóknak és az olvasóknak abban, hogy pontosabban megértsék és kommunikálják a bizonyítékokat.”De ha a kutatók a megértés, kommunikációs problémák egy 0.05 küszöböt, nem világos, hogyan használ egy 0.005 küszöb megszünteti ezeket a problémákat., És tekintsünk még egy másik állítást: “a szerzők és az olvasók maguk is kezdeményezhetik az eredmények megfelelőbb leírásával és értelmezésével a statisztikai jelentőség új javasolt definíciójának fényében.”Ismét nem világos, hogy a 0,005-ös küszöbérték elfogadása hogyan teszi lehetővé a szerzők és az olvasók számára, hogy kezdeményezzék az adatok jobb értelmezését. Így még a fő érveink megvitatása előtt is van ok arra, hogy az olvasó gyanakodjon az elhamarkodott állításokra, empirikus támogatás nélkül.,

a fentiekkel az útból, úgy vélik, hogy az alapvető probléma a vizsgálatok jelentősége, hogy a cél az, hogy elutasítja a null hipotézist. Úgy tűnik, hogy ez a cél—ha Bayes—azt követeli meg, hogy a null hipotézis hátsó valószínűsége alacsony legyen a kapott megállapítás miatt. De a p-érték egy szerez a valószínűsége, hogy a megállapítás, és a szélsőséges megállapítások, tekintettel arra, hogy a null hipotézis és minden más feltételezések a modell helyes volt (Grönland et al.,, 2016; Grönland, 2017), és érvénytelen inverz következtetést kell levonni a nullhipotézis valószínűségéről a megállapítás alapján. Ha egy frequentist, kizárt, hogy a bejárás a logikai hézag a valószínűsége, hogy az eredményeket, több szélsőséges megállapításokat, mivel a null hipotézis, hogy egy határozat arról, hogy elfogadja vagy elutasítja a null hipotézis (Briggs, 2016; Trafimow, 2017). Elfogadjuk, hogy a frekventista logika szerint az I. típusú hiba valószínűsége valóban alacsonyabb, ha 0,005-ös vágást használunk P-hez, mint egy 0,05-ös vágást,minden más egyenlő., Elfogadjuk Benjamin et al Bayesian érvelését is. (2018), hogy a null hipotézis kevésbé valószínű, ha p = 0,005, mint ha p = 0,05, minden más egyenlő. Végül elismerjük, hogy Benjamin et al. (2018) szolgáltatást nyújtott a tudomány számára azáltal, hogy tovább ösztönözte a jelentőségvizsgálatról szóló vitát. De vannak fontos kérdések Benjamin et al. (2018) Úgy tűnik, hogy nem vette figyelembe, tárgyalt a következő szakaszokban.,

regresszió és Replikabilitás

Trafimow and Earp (2017) azzal érvelt, hogy az alfa-szint beállítása a nulla hipotézisek elutasítására vagy elutasítására vonatkozó döntések meghozatalára, és az érvek akkor is megtartják erejüket, ha az alfa-szint 0,005-re csökken. Bizonyos szempontból a csökkentés rontja az ügyeket. Az egyik probléma az, hogy a p-értékek mintavételi változékonysággal rendelkeznek, mint más statisztikák (Cumming, 2012)., De a p-érték különleges, mivel úgy tervezték, hogy tiszta zajnak tűnjön, ha a null hipotézis és az összes többi modellfeltevés helyes, mert ebben az esetben a p-érték egyenletesen oszlik el (Grönland, 2018). Egy alternatív hipotézis szerint eloszlása lefelé tolódik, azzal a valószínűséggel, hogy a p a kiválasztott kivágás alá esik, a teszt ereje. Mivel a tipikus tanulmányok tényleges teljesítménye nem túl magas, ha az alternatíva helyes, akkor nagyrészt szerencse kérdése, hogy a mintában szereplő p-érték a kiválasztott alfa-szint alatt van-e., Amikor, mint gyakran előfordul, a teljesítmény jóval 50% alatt van (Smaldino and McElreath, 2016), a kutató valószínűleg nem fogja újra mintavételezni a P-értéket egy szignifikancia küszöb alatt replikációkor, mivel a p-érték Eloszlás küszöbértéke alatt sokkal több p-érték lehet, mint a p-érték Eloszlás küszöbértéke alatt (Goodman, 1992; Senn, 2002; Halsey et al. , 2015). Ez a probléma rosszabbodik, mivel a vágás csökken, mivel állandó mintaméret esetén a teljesítmény csökken a vágással.,

még akkor is, ha nem használtak vágást, az átlag regressziójának jelensége azt sugallja, hogy a replikációs kísérletben kapott p-érték valószínűleg visszafejlődik, bármi is legyen az átlagos p-érték, ha sok replikációt végeztek. Mennyi regresszió kell történnie? Ha a nullhipotézis helytelen, az attól függ, hogy mennyire változó a pont becslése, így a p-értékek.

továbbá a p-értékek variabilitása gyenge korrelációt eredményez a replikációk között., Adatok alapján elhelyezett-online által a Nyílt Tudományos Együttműködés (2015; https://osf.io/fgjvw), Trafimow valamint a de Boer (nyújtott) számított egy korreláció csak 0.004 között p-kapott értékek az eredeti kohorsz vizsgálatok a p-értékeket kapott a replikáció kohorsz, mint a várható korreláció nulla, ha a null hipotézis használt modelleket pedig, hogy kiszámolja a p-értékek helyesek voltak (tehát a p-értékek egyenletesen oszlik el).,

az alacsony korrelációnak számos lehetséges oka van, beleértve azt is, hogy a vizsgált társulások többsége valójában szinte nulla volt, így a p-értékek elsősorban a zaj függvénye maradtak, így közel nulla korrelációra kell számítani., De még akkor is, ha sokan, vagy legtöbb egyesületek voltak messze null, így változik a p-értékek lefelé felé nulla létre a pozitív korreláció a replikáció, hogy a megfelelési továbbra is alacsony oka nem csak a nagy véletlen hiba a p-értékek, hanem azért is, mert tökéletlen replikációs módszer a lineáris kapcsolat a p-értékek hatása méretek (“kijavítása” a korreláció a csillapítás miatt korlátozás a tartomány, az eredeti kohorsz tanulmány, növeli az összefüggés, hogy a 0.01, ami még mindig alacsony)., Továbbá, ha a vizsgált null hipotézisek többsége hamis volt, az alacsony P-érték replikálhatósága, amint azt a nyílt tudományos együttműködés is bizonyítja, részben annak a közzétételi torzításnak tulajdonítható, amelyet a P-értékeken alapuló közzétételi kritérium okozott (Locascio, 2017A; Amrhein and Grönland, 2018)., De ha valaki ilyen hozzárendelést kíván tenni, bár indokolhatja a p-értékek használatát egy hipotetikus tudományos univerzumban, ahol a hamis nullákból származó p-értékek a közzétételi elfogultság hiánya miatt jobban megismételhetők, a hozzárendelés újabb fontos okot ad arra, hogy elkerüljük a P-értékeken vagy más statisztikai eredményeken alapuló közzétételi kritériumokat (Amrhein és Grönland, 2018).,

így az eredeti vizsgálatban kapott p-értéknek kevés köze van a replikációs kísérletben kapott p-értékhez(éppen ez az, amit a p-értékek tényleges elmélete mond). A legjobb becslés egy p-érték lenne, ha a replikációs kísérlet lényegesen közelebb lenne a p-érték Eloszlás átlagához, mint az eredeti kísérletben kapott p-értékhez. Bármely hipotézis szerint minél alacsonyabb az eredeti kísérletben közzétett p-érték (például 0, 001 helyett 0.,01), annál valószínűbb, hogy a p-érték nagyobb távolságát képviseli a p-érték átlagától, ami az átlaghoz való nagyobb regressziót jelenti.

mindez azt jelenti, hogy a P-értékeken alapuló bináris döntések a hipotézisek elutasításáról vagy elfogadásáról, a bizonyítékok erejéről (Fisher, 1925, 1973) vagy a teszt súlyosságáról (Mayo, 1996) megbízhatatlan döntések lesznek. Ez azzal érvelhető, hogy jó ok arra, hogy egyáltalán ne használjuk a p-értékeket, vagy legalábbis ne használjuk őket arra, hogy döntéseket hozzunk arról, hogy a tudományos hipotéziseket helyesnek ítéljük-e vagy sem (Amrhein et al., 2018).,

hibaarányok és változó Alfa-szintek

bármely beállított alfa-szint közzétételhez való felhasználásának másik hátránya, hogy az I. és II.típusú hibák relatív fontossága eltérhet a területeken vagy a kutatók között végzett vizsgálatokban (Trafimow and Earp, 2017). A 0,05-ös vagy 0,005-ös takaró szint vagy bármi más beállítása arra kényszeríti a kutatókat, hogy úgy tegyenek, mintha az I. és II.típusú hibák relatív fontossága állandó lenne. Benjamin et al. (2018) próbálja igazolni ajánlásukat, hogy csökkentsék a 0.,005 szint rámutatva néhány tudományterületre, amelyek nagyon alacsony alfa-szintet használnak, de ez a megfigyelés ugyanolyan összhangban van azzal a gondolattal, hogy a tudomány általános szintje nem kívánatos. Jó okunk van arra, hogy miért várható változás a területeken és a témákban: számos tényező befolyásolhatja az I. és II. típusú hibák viszonylagos fontosságát, így minden általános ajánlás nem kívánatos. Ezek a tényezők magukban foglalhatják az elmélet egyértelműségét, kiegészítő feltételezéseket, gyakorlati vagy alkalmazott aggályokat vagy kísérleti szigorúságot., Miller and Ulrich (2016) valóban megmutatta, hogy ezek és más tényezők hogyan befolyásolják közvetlenül a végső kutatási kifizetést. Van egy lenyűgöző irodalom, amely igazolja a takaró szintű ajánlás meghatározásának nehézségeit (pl. Buhl-Mortensen, 1996; Lemons et al., 1997; Lemons and Victor, 2008; Lieberman and Cunningham, 2009; Myhr, 2010; Rice and Trafimow, 2010; Mudge et al., 2012; Lakens et al., 2018).

azonban nem állítjuk, hogy minden kutatónak meg kell állítania a saját alfa-szintjét minden egyes tanulmányhoz, ahogy azt Neyman and Pearson (1933) és Lakens et al., (2018), mert ennek is vannak problémái (Trafimow and Earp, 2017). Például, változó küszöbértékek, sok régi problémák jelentősége tesztelés továbbra is megoldatlan, mint például a problémák regresszió átlaga p-értékek, infláció hatás méretek (a “győztes átok,” lásd alább), szelektív jelentéstételi és közzétételi elfogultság, valamint az általános hátránya kényszerítve döntések túl gyorsan, ahelyett, hogy figyelembe véve a kumulatív bizonyítékok kísérletek. Tekintettel a statisztikai következtetések körüli bizonytalanságra (Grönland, 2017, 2018; Amrhein et al.,, 2018), erősen kételkedünk abban, hogy sikeresen “ellenőrizhetjük” a hibaarányt, ha csak egy tanulmány előtt igazolnánk alfa-szintünket és más döntéseinket, mint Lakens et al. (2018) Úgy tűnik, hogy a Benjamin et al. (2018). Mindazonáltal, Lakens et al. (2018) arra a következtetésre jut, hogy “a” statisztikailag szignifikáns ” kifejezést már nem szabad használni.”Egyetértünk, de úgy gondoljuk, hogy az indokolt alfa-val végzett szignifikancia tesztelés továbbra is jelentős tesztelés, függetlenül attól, hogy a “jelentőség” kifejezést használják-e vagy sem.,

tekintettel arra, hogy a takaró és a változó alfa szintek egyaránt problematikusak, ésszerű, hogy ne definiáljuk újra a statisztikai szignifikanciát,hanem teljesen lemondunk a szignifikancia tesztelésről, amint azt McShane et al. (2018) és Amrhein és Grönland (2018), két másik megjegyzés Benjamin et al. (2018).

Replikabilitás meghatározása

újabb hátrány vonatkozik arra, amit Benjamin et al. (2018) a javaslatuk fő előnye, hogy a közzétett eredmények a 0.005-ös 0.05-ös alfa-szintnél jobban megismételhetők., Ez attól függ, hogy mit jelent a” replikáció ” (lásd Lykken, 1968, néhány meghatározásért). Ha az eredeti tanulmányhoz és a replikációs tanulmányhoz ugyanazt az alfa-szintet ragaszkodunk, akkor nem látunk okot arra, hogy azt gondoljuk, hogy a 0.005 szint használatával sikeresebb replikációk lesznek, mint a 0.05 szint használatával. Valójában a korábban készített statisztikai regressziós érv azt sugallja, hogy a regressziós kérdés még rosszabb a 0.005 használatával, mint a 0.05 használatával. Alternatív megoldásként, mint Benjamin et al. (2018) Úgy tűnik, hogy az eredeti vizsgálathoz 0, 005, a replikációs vizsgálathoz 0, 05 használható., Ebben az esetben egyetértünk abban, hogy a 0,005 és 0,05 kombináció kevesebb sikertelen replikációt eredményez, mint a 0,05 és 0,05 kombináció a kezdeti és replikációs vizsgálatokban. Ez azonban magas áron érkezik az önkényességben. Tegyük fel, hogy két vizsgálat érkezik p < 0, 005 és p < 0, 05. Ez sikeres replikációnak számítana. Ezzel szemben tegyük fel, hogy a két vizsgálat p < 0, 05 és p < 0, 005., Csak a második vizsgálat számítana, és a kombináció nem minősülne sikeres replikációnak. Ragaszkodik hozzá, hogy a beállítás életkori 0,005 teszi a kutatás több esze lenne kereslet sokkal több sajátossága a tekintetben, hogy hogyan kell megtervezni megkettőzhetőségi.

ezenkívül egyetlen replikációs sikert vagy kudarcot sem látunk véglegesnek. Ha valaki szeretné, hogy egy erős esetben a replikációs siker vagy kudarc, többszörös replikációs kísérletek kívánatosak. Amint azt a kognitív pszichológiában (Zwaan et al.,, 2017) és társadalomtudományok (Mullinix et al., 2015), az elmélet minősége, valamint a modellfeltevések teljesítésének mértéke jelentősen befolyásolja a replikabilitást.

A feltételezések megkérdőjelezése

az eddigi vita azzal a látszattal jár, hogy a p-értékek értelmezésének alapjául szolgáló feltételezések igazak. De mennyire valószínű ez? Berk és Freedman (2003) határozottan állította, hogy a lakosság véletlenszerű és független mintavételének feltételezései ritkán igazak., A problémák különösen szembetűnőek a klinikai tudományokban, ahol a feltételezések hamissága, valamint a statisztikai és klinikai szignifikancia közötti eltérések különösen nyilvánvalóak és drámaiak (Bhardwaj et al., 2004; Ferrill et al., 2010; Fethney, 2010; Oldal, 2014). A statisztikai tesztek azonban nemcsak hipotéziseket tesztelnek, hanem számtalan feltételezést és a kutatás teljes környezetét (Grönland, 2017, 2018; Amrhein et al., 2018)., A valószínű hamis feltételezések problémája, a már tárgyalt többi problémával kombinálva, az igazság illuzórikus összegyűjtését a p-értékekből, vagy bármely más statisztikai módszerből, még drámaibbá teszi.

A populációs hatás mérete

folytassuk a jelentési és replikációs kérdéseket, visszatérve arra a látszatra, hogy a modellfeltevések helyesek, miközben szem előtt tartjuk, hogy ez nem valószínű. Vegye figyelembe, hogy mivel az ügyek most a 0-val szignifikáns teszteket használnak.,05 kritérium, a népességhatás mérete fontos szerepet játszik mind a statisztikai szignifikancia megszerzésében (minden más egyenlő, a mintahatás mérete nagyobb lesz, ha a népességhatás mérete nagyobb), mind a statisztikai szignifikancia kétszer történő megszerzésében a sikeres replikáció érdekében. A 0,005-ös küszöbértékre való áttérés nem csökkentené a populáció hatásméretének fontosságát, és növelné annak fontosságát, kivéve, ha a mintaméretek jelentősen növekednének a jelenleg használtaktól. Jó okunk van arra, hogy elutasítsuk, hogy a replikálhatóság a populáció hatásméretétől függjön., Ahhoz, hogy ezt gyorsan, úgy az egyik legfontosabb tudományos kísérletek minden idők, Michelson and Morley (1887). Interferométerükkel tesztelték, hogy az univerzum tele van-e luminiferous éterrel, amely lehetővé teszi a fény számára, hogy a csillagokból a földre utazzon. A mintahatás mérete nagyon kicsi volt, és a fizikusok elfogadják, hogy a populáció hatás mérete nulla, mert nincs luminiferous éter. A hagyományos vizsgálatok jelentősége akár 0,05 vagy 0.,005 cutoff, replikáló Michelson és Morley lenne problematikus (lásd Sawilowsky, 2003, a vita a kísérlet keretében hipotézis tesztelés). A fizikusok azonban a kísérletet nagyon megismételhetőnek tartják (Lásd még Meehl, 1967). Minden olyan javaslat, amely p-értékű elutasítási kritériumokat tartalmaz, arra kényszeríti a replikációs valószínűséget, hogy befolyásolja a populáció hatásméretét, ezért el kell utasítani, ha elfogadjuk azt az elképzelést, hogy a replikálhatóság nem függhet a populáció hatásméretétől.

továbbá, 0 alfa szinttel.,005, a nagy hatásméretek fontosabbak lennének a közzétételhez, és a kutatók sokkal inkább a “nyilvánvaló” kutatás felé hajolhatnak, mint a kreatív ötletek tesztelése felé, ahol nagyobb a kockázata a kis hatásoknak és a p-értékeknek, amelyek nem felelnek meg a 0.005 bar-nak. Nagyon valószínű, hogy a null eredményeket olyan nehéz közzétenni a tudományokban, mint például a pszichológia, mert a P-értékcsökkentések használatának hagyománya annyira elmélyült. Hasznos lenne megszüntetni ezt a hagyományt.,

A közzétett Hatásméretek pontossága

kívánatos, hogy a tudományos irodalmakban közzétett tények pontosan tükrözzék a valóságot. Fontolja meg újra a regressziós kérdést. Minél szigorúbb a közzététel kritériumszintje, annál nagyobb a távolság egy olyan megállapítástól, amely átmegy a kritériumon az átlaghoz, így növekszik a regressziós hatás. Még a 0.,05 alfa szinten, a kutatók már régóta felismerték, hogy a közzétett hatás méretű, valószínűleg nem tükrözik a valóságot, vagy legalábbis nem a valóságban, hogy lesz látható, ha sok ismétlésben, minden kísérlet, valamint az összes tették közzé (lásd Briggs, 2016; Grice, 2017; Hyman, 2017; Kline, 2017; Locascio, 2017a,b; Márka, 2017-re egy újabb vita, ez a probléma). Ésszerű mintaméretek és ésszerű populációs hatásméretek esetén az abnormálisan nagy mintahatásméretek eredményezik a p-értékeket, amelyek megfelelnek a 0,05-ös szintnek vagy a 0-nak.,005 szint, vagy bármely más alfa szint, amint az a statisztikai regresszió szempontjából nyilvánvaló. A jellemzően alacsony mintaméreteknél a statisztikailag szignifikáns hatások gyakran túlbecsülik a populációs hatásméreteket, amelyeket “effect size inflation”, “truth inflation” vagy “winner’ s curse” (Amrhein et al., 2017). Hatása méret túlzó volt empirikusan bizonyított a Nyílt Tudományos Együttműködés (2015), ahol az átlagos hatás mértéke a replikáció kohorsz vizsgálatok során drámaian csökkent az átlagos hatás mérete az eredeti kohorsz (a 0.403, hogy 0.197)., A szigorúbb 0.005-ös vágásra való áttérés még rosszabb hatásméret-túlbecsülést eredményezne (Button et al., 2013; Amrhein és Grönland, 2018). A hatásméretek közzétételének fontossága pontosan tükrözi a populáció hatásméretét, ellentmond a küszöbértékek és a szignifikancia tesztek alkalmazásának, bármilyen alfa szinten.

a Minta Mérete Alternatívák Jelentősége Vizsgálati

hangsúlyozzuk, hogy a replikáció nagymértékben függ a minta mérete, de vannak olyan tényezők, amelyek befolyásolják a kutatók segítségével a minta nagy kiszerelés szükséges a jó mintavételi pontosság, megkettőzhetőségi., A nagy mintaméretek megszerzésének nyilvánvaló költségei mellett előfordulhat, hogy alulértékelik a minta méretét (Vankov et al., 2014), az ösztönzők fontossága az újdonságnak a replikálhatóság felett (Nosek et al., 2012) és egy elterjedt tévhit, hogy a p-értékek kiegészítése a replikabilitást méri (Cohen, 1994; Thompson, 1996; Grönland et al., 2016). A minta méretére való összpontosítás alternatívát kínál a szignifikancia teszteléshez., Trafimow (2017; Trafimow and MacDonald, 2017) A következő eljárást javasolta: a kutató meghatározza, hogy milyen közel kívánja a minta statisztikáit a megfelelő populációs paraméterekhez, és a kívánt valószínűséget, hogy ilyen közel álljon. A Trafimow egyenletei felhasználhatók a szükséges mintaméret megszerzéséhez, hogy megfeleljenek ennek a közelségi specifikációnak., A kutató ezután megszerzi a szükséges mintaméretet, kiszámítja a leíró statisztikákat ,és a populációs paraméterek pontos becsléseként veszi őket (ideiglenesen új adatokra, természetesen; a megbízható becslés optimális módja robusztus módszerekkel történik, lásd Huber, 1972; Tukey, 1979; Rousseeuw, 1991; Portnoy and He, 2000; Erceg-Hurn et al., 2013; Field and Wilcox, 2017). Hasonló módszerek már régóta léteznek, amelyekben a minta mérete a konfidencia intervallumok kívánt maximális szélességén alapul.,

Ez a közelség eljárás hangsúlyozza (egy) annak meghatározása, hogy mi kell ahhoz, hogy úgy vélik, hogy a minta a statisztikák jó becslések szerint a lakosság paraméterek adatgyűjtés előtt, ahelyett, utána pedig (b) beszerzésére egy elég nagy minta mérete lenni abban, hogy a kapott minta statisztikai valójában belül a megadott távolságok a megfelelő lakosság paraméterek. Az eljárás nem segíti elő a közzétételi elfogultságot, mivel a közzétételi határozatokra nincs korlátozás., A közelségi eljárás nem ugyanaz, mint a hagyományos teljesítményelemzés: először is, a hagyományos teljesítményelemzés célja, hogy megtalálja a minta méretét, amely ahhoz szükséges, hogy jó esélye legyen statisztikailag szignifikáns p-érték elérésére. Másodszor, a hagyományos teljesítményelemzést erősen befolyásolja a várható hatásméret, míg a közelségi eljárást nem befolyásolja a normál (Gaussian) modellek várható hatásmérete.

a nagyobb pont az, hogy vannak olyan kreatív alternatívák a szignifikancia teszteléshez, amelyek sokkal közvetlenebben szembesülnek a mintaméret kérdésével, mint a szignifikancia tesztelés., A “statisztikai eszközkészlet” (Gigerenzer and Marewski, 2015) továbbá magában foglalja például a konfidencia intervallumokat (amelyeket inkább át kell nevezni, és “kompatibilitási intervallumokként”kell használni—lásd Amrhein et al., 2018; Grönland, 2018), egyenértékűségi tesztek, p-értékek, mint a modellekkel szembeni cáfolati bizonyítékok folyamatos mérései (Grönland, 2018), valószínűségi arányok, Bayes-módszerek vagy információs kritériumok. A gyártási vagy minőségellenőrzési helyzetekben a Neyman-Pearson döntéseknek is van értelme (Bradley and Brand, 2016).,

de a tudományos feltáráshoz ezen eszközök egyike sem válhat az új mágikus módszerré, amely egyértelmű mechanikus válaszokat ad (Cohen, 1994), mert minden kiválasztási kritérium figyelmen kívül hagyja a bizonytalanságot a bináris döntéshozatal mellett, és így ugyanazokat a problémákat okozza, mint a szignifikancia tesztelés. A Bayes-faktor küszöbértékének használata például hasonló dilemmát eredményez, mint a p-érték küszöbértéke: mint Konijn et al. (2015) javasolt, “Isten szeretne egy Bayes tényező 3.01 közel annyi, mint egy Bayes tényező 2.99.,”

végül, a következtetésnek egyáltalán nem szabad egyetlen tanulmányon alapulnia (Neyman and Pearson, 1933; Fisher, 1937; Grönland, 2017), sem ugyanazon laboratórium replikációin, hanem több független vizsgálat összesített bizonyítékain. Kívánatos pontos becsléseket szerezni ezekben a vizsgálatokban, de fontosabb cél a közzétételi torzítás kiküszöbölése a szakirodalom széles konfidencia intervallumainak és kis hatásainak bevonásával, amelyek nélkül a kumulatív bizonyítékok torzulnak (Amrhein et al., 2017, 2018; Amrhein és Grönland, 2018)., E vonalak mentén, Briggs (2016) azzal érvel, amiért elhagyta a paraméter-alapú következtetés és elfogadása, pusztán a prediktív, így ellenőrizhető, valószínűségi modellek, valamint Grönland (2017) látja “, hogy egy szörnyű kell, hogy távol matematikai statisztika kifejezni szorosabban leírások a vizsgálati eljárások, adatok gyűjtése , valamint az így keletkező adatok.”

következtetés

helyénvalónak tűnik az alapvető kérdéssel zárni, amely a kezdetektől velünk volt., A P-értékeket és a p-érték küszöbértékeket vagy bármely más statisztikai eszközt kell-e használni a közzétételi döntések meghozatalának fő kritériumaként, vagy a hipotézisek elfogadására vagy elutasítására vonatkozó döntéseket? Az a puszta tény, hogy a kutatók a replikációval foglalkoznak, bár koncepcionalizálják, azt jelzi, hogy az egyes tanulmányok ritkán véglegesek, és ritkán indokolják a végső döntést., Értékelésekor az erő, a bizonyíték, kifinomult kutatók szerint, egy bevallottan szubjektív módon, elméleti megfontolások, mint például hatálya, értelmező szélessége, illetve prediktív ereje; ér, a kiegészítő feltételezések csatlakoztatása nonobservational feltételek az elméletek, hogy a megfigyeléses feltételek az empirikus hipotézisek; az erő, a kísérleti design; valamint hatással alkalmazások. Mindezeket a 0,05, 0,01, 0,005 vagy bármi más p-érték küszöbén alapuló bináris döntésre forralni nem elfogadható.,

szerzői hozzájárulások

az összes felsorolt szerző közvetlenül hozzájárult a papírhoz, vagy jóváhagyta annak tartalmát, és jóváhagyta közzétételre.

összeférhetetlenségi nyilatkozat

az FK-N-t az Oikostat GmbH alkalmazta. A GM a Janssen Research and Development Kft. tanácsadójaként tevékenykedik.

a többi szerző kijelenti, hogy a kutatást olyan kereskedelmi vagy pénzügyi kapcsolatok hiányában végezték, amelyek potenciális összeférhetetlenségnek tekinthetők.,

köszönjük Sander Grönlandnak és Rink Hoekstra-nak a hozzászólásokat és megbeszéléseket. Az MG elismeri a VEGA 2/0047/15 támogatás támogatását. Az RvdS-t a holland tudományos kutatási szervezet támogatásaforrás: NWO-VIDI-45-14-006. A kiadványt anyagilag támogatta a Svájci Nemzeti Tudományos Alapítvány 156294-es adománya a VA-nak.

Bradley, M. T., and Brand, A. (2016). A jelentőségvizsgálatnak taxonómiára van szüksége: vagy hogy a Fisher, Neyman-Pearson vita eredményeként a következtetési farok csóválta a mérőkutyát. Psychol. REP. 119, 487-504., doi: 10.1177/0033294116662659

P>PubMed Abstract | CrossRef teljes szöveg | Google Scholar

Briggs, W. M. (2016). Bizonytalanság: a lélek modellezés, valószínűség, statisztika. New York, NY: Springer.

Google Scholar

Cohen, J. (1994). A Föld kerek (p < 0.05). Am. Psychol. 49, 997–1003.

Google Scholar

Fisher, R. A. (1925). Statisztikai módszerek a Kutatómunkások számára, 1. Edn. Edinburgh: Oliver és Boyd.

Fisher, R. A. (1937)., A kísérletek tervezése, 2. Edn. Edinburgh: Oliver és Boyd.

Fisher, R. A. (1973). Statisztikai módszerek és tudományos következtetések, 3. Edn. London: Macmillan.

Mayo, D. (1996). Hiba és a kísérleti tudás növekedése. Chicago, IL: A University of Chicago Press.

Google Scholar

Melton, A. (1962). Szerkesztőség. J. Exp. Psychol. 64, 553–557. doi: 10.1037 / h0045549

CrossRef teljes szöveg

Open Science Collaboration (2015). A pszichológiai tudomány reprodukálhatóságának becslése., Tudomány 349: aac4716. doi: 10.1126 / tudomány.aac4716

CrossRef teljes szöveg

oldal, P. (2014). A statisztikai jelentőségen túl: a rehabilitációs kutatási szakirodalom klinikai értelmezése. Int. J. Sport Phys. Her. 9:72.

PubMed Abstract / Google Scholar

Thompson, B. (1996). Az AERA szerkesztői politikái a statisztikai szignifikancia tesztelésével kapcsolatban: három javasolt reform. Educ. Res. 25, 26-30. doi: 10.2307/1176337

CrossRef teljes szöveg/Google Scholar

Trafimow, D. (2017)., A bizalom együtthatójának felhasználásával a filozófiai váltást a posteriori-ról a priori inferenciális statisztikákra. Educ. Psychol. Meas. 77, 831–854. doi: 10.1177 / 0013164416667977

CrossRef teljes szöveg / Google Scholar

Vélemény, hozzászólás?

Az email címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük