Welcome to Our Website

Rajoja ja Psykologia (Suomi)

Monet tutkijat ovat kritisoineet nollahypoteesin merkitsevyyden testausta, vaikka monet ovat puolustaneet sitä liian (ks Balluerka et al., 2005, uudelleentarkastelua varten). Joskus suositellaan alfatason alentamista konservatiivisempaan arvoon tyypin I virhetason alentamiseksi. Esimerkiksi Melton (1962), päätoimittaja Journal of Experimental Social Psychology alkaen 1950-1962, suosi alfa tasolla 0,01 yli tyypillinen 0.05 alpha tasolla. Viime aikoina Benjamin et al., (2018) suositellaan siirtymässä 0.005—sopusoinnussa Melton kommentti, että jopa 0.01 tasolla ei ehkä ole ”riittävän vaikuttava” takaa julkaisu (s. 554). Lisäksi Benjamin et al. (2018) määräsi, että 0,005 alfa-tason pitäisi olla uusille löydöille, mutta oli epämääräinen siitä, mitä tehdä löydöksille, jotka eivät ole uusia. Vaikka ei välttämättä vahvistava merkitys testauksen ensisijaisena johdettujen tilastollinen menettely (monet kirjoittajat ilmeisesti hyväksi Bayes-menettelyt), Benjamin et al. (2018) ei väittänyt, että käyttämällä 0.,005 katkaisu korjaisi suuren osan siitä, mikä merkitys-testauksessa on vialla. Valitettavasti, kuten tulemme osoittamaan, ongelmat merkitys testejä ei voida tärkeintä lieventää vain ottaa enemmän konservatiivinen hylkäämisen peruste, ja jotkut ongelmat ovat pahentaneet antamalla enemmän konservatiivinen kriteeri.

aloitamme Benjamin et alin väitteillä. (2018). Esimerkiksi, he kirjoittivat, ”vaihdan P-arvo kynnys on yksinkertainen, osuu koulutuksessa monet tutkijat, ja voi nopeasti saavuttaa laajan hyväksynnän.,”Jos merkityksellisyystestaus-millä tahansa p-arvorajalla-on yhtä pahasti viallinen kuin se on (KS. myös Amrhein et al., 2017; Grönlanti, 2017), nämä syyt eivät selvästikään riitä perusteeksi pelkästään katkaisun muuttamiselle. Harkitse toinen väite: ”uusi merkitys kynnys auttaa tutkijat ja lukijat voivat ymmärtää ja kommunikoida näyttöä tarkemmin.”Mutta jos tutkijoilla on ymmärrys-ja kommunikaatio-ongelmia 0,05-kynnyksen kanssa, on epäselvää, miten 0,005-kynnyksen käyttäminen poistaa nämä ongelmat., Ja harkitse vielä toinen väite: ”Kirjoittajat ja lukijat voivat itse tehdä aloitteen kuvaamalla ja tulkitsemalla tuloksia, enemmän asianmukaisesti valossa ehdotettu uusi määritelmä tilastollinen merkitsevyys.”Ei myöskään ole selvää, miten 0,005-kynnyksen hyväksyminen antaa tekijöille ja lukijoille mahdollisuuden tehdä aloite tietojen paremman tulkinnan suhteen. Siten jopa ennen keskustelua tärkeimmistä argumentteja, on syytä lukija epäilyttäviä hätäinen väittää, jolla ei ole empiiristä tukea.,

edellä ulos tieltä, katsovat, että perus ongelma testien merkitys on, että tavoitteena on hylätä nollahypoteesi. Tämä tavoite näyttää vaativan-jos yksi on Bayesilainen-että posteriorinen todennäköisyys null hypoteesi olisi alhainen, koska saatu havainto. Mutta p-arvo saadaan on todennäköisyys löytää, ja enemmän äärimmäisiä havaintoja, ottaen huomioon, että nollahypoteesi ja kaikki muut oletukset siitä, että malli oli oikea (Grönlannin et al.,, 2016; Grönlanti, 2017), ja yksi täytyy tehdä virheellinen käänteinen päättely vetää johtopäätös todennäköisyydellä nollahypoteesi koska löytää. Ja jos yksi on frequentist, ei ole mitään keinoa kulkea looginen kuilu todennäköisyys löytää ja enemmän äärimmäisiä havaintoja, koska nollahypoteesia, että päätös siitä, pitäisikö meidän hyväksyä tai hylätä nollahypoteesi (Briggs, 2016; Trafimow, 2017). Hyväksymme, että frequentist logiikka, todennäköisyys Tyypin I virhe todella on pienempi, jos käytämme 0.005 sulku p alle 0,05 raja, kaikki muut tekijät pysyvät ennallaan., Hyväksymme myös Benjamin et alin Bayesilaisen väitteen. (2018) että nollahypoteesi on epätodennäköisempi, jos p = 0,005 kuin jos p = 0,05, kaikki muu on yhtä suuri. Lopuksi tunnustamme, että Benjamin et al. (2018) tarjosi tieteelle palvelua herättämällä keskustelua merkittävyystesteistä. Mutta on tärkeitä asioita Benjamin et al. (2018) ei näytä harkinneen, käsitellään seuraavissa jaksoissa.,

Regressio ja Toistettavuus

Trafimow ja Earp (2017) väitti vastaan yleinen käsite asetus alfa tasolla tehdä päätöksiä, hylkäämään tai ei hylkää null hypoteeseja ja väitteitä, säilyttää niiden voimaa, vaikka alfa taso on alennettu 0, 005. Jollain tavalla vähennys pahentaa asioita. Yksi ongelma on, että p-arvoissa on näytteenottovaihtelua, kuten muissakin tilastoissa (Cumming, 2012)., Mutta p-arvo on erityistä, että se on suunniteltu näyttämään puhdasta melua, jos nollahypoteesi ja kaikki muut mallin oletukset ovat oikein, sillä tällöin p-arvo on tasaisesti jakautunut (Grönlanti, 2018). Alla vaihtoehtoinen hypoteesi, sen jakelu on siirtynyt alaspäin, todennäköisyys p laskee alle valitun raja on valtaa testin. Koska todellinen valta tyypillisiä tutkimuksia ei ole kovin korkea, kun vaihtoehto on oikea, se on pitkälti onnesta, onko otokseen valittujen p-arvo on alle valitun alpha tasolla., Kun, kuten usein tapauksessa, teho on paljon alle 50% (Smaldino ja McElreath, 2016), tutkija ei todennäköisesti uudelleen otoksen p-arvo on pienempi merkitys kynnys, kun replikointi, koska siellä saattaa olla paljon enemmän p-arvot yli kuin alle raja-arvoa p-arvo jakelu (Goodman, 1992; Senn, 2002; Halsey ym., 2015). Tämä ongelma pahenee, koska sulku on alennettu, koska jatkuva näyte koko, teho laskee kanssa sulku.,

Vaikka yksi ei käytä sulku, ilmiö regressio keskiarvo viittaa siihen, että p-arvo on saatu lisääntymään kokeilu on todennäköisesti taantua mitä tarkoittaa p-arvoa olisi, jos monet kopioivat tehtiin. Kuinka paljon regressiota pitäisi tapahtua? Kun nollahypoteesi on virheellinen, se riippuu siitä, miten muuttujan piste-estimaatit ja siten p-arvot ovat.

lisäksi P-arvojen vaihtelu johtaa huonoon korrelaatioon replikaatioiden välillä., Tietojen perusteella sijoitettu online-Avoimen Tieteen Yhteistyö (2015; https://osf.io/fgjvw), Trafimow ja de Boer (toimitettu) laskettu korrelaatio on vain 0,004 välillä p-arvot on saatu alkuperäisen kohortin tutkimuksia, joiden p-arvot on saatu lisääntymään kohortti, verrattuna odotettavissa korrelaatio on nolla, jos kaikki null hypoteeseja ja malleja käytetään laskea p-arvot olivat oikein (ja siten kaikki p-arvot olivat tasaisesti jakautunut).,

On olemassa useita mahdollisia syitä alhainen korrelaatio, mukaan lukien, että suurin osa opiskeli yhdistykset voivat on itse asiassa ollut lähes nolla, niin p-arvot pysyivät pääasiassa toiminto melua ja siten lähellä nollaa korrelaatio olisi odotettavissa., Mutta vaikka monet tai useimmat yhdistykset olivat kaukana null, mikä siirtää p-arvot alaspäin kohti nollaa ja luoda positiivinen korrelaatio on replikointi, että korrelaatio jää pieneksi, koska ei vain suuri satunnainen virhe p-arvoja, mutta myös koska epätäydellinen replikaatio menetelmät ja epälineaarinen suhde p-arvot ja vaikutus koot (”korjaaminen” korrelaatio vaimennus johtuu rajoitus alue, alkuperäisen kohortin tutkimuksia, lisää korrelaatio 0,01, joka on edelleen alhainen)., Myös, jos suurin osa testattu null hypoteesit olivat vääriä, alhainen p-arvo toistettavuus mistä on osoituksena Avoimen Tieteen Yhteistyö voisi johtua, osittain julkaisu aiheuttama harha ottaa publishing kriteeri, joka perustuu p-arvot (Locascio, 2017a; Amrhein ja Grönlanti, 2018)., Mutta jos joku haluaa tehdä tällaista nimeä, vaikka se voi tarjota perusteltua käyttää p-arvot hypoteettinen tieteellisen maailmankaikkeuden, jossa p-arvot vääriä nollia on enemmän toistettavissa, koska puute julkaisu bias, nimeäminen tarjoaa vielä toinen tärkeä syy välttää minkäänlaista publishing kriteerit perustuvat p-arvot tai muut tilastotiedot (Amrhein ja Grönlanti, 2018).,

näin ollen alkuperäisessä tutkimuksessa saadulla p-arvolla ei ole juurikaan tekemistä replikaatiokokeessa saadun p-arvon kanssa (mikä on juuri se, mitä P-arvojen todellisen teorian mukaan pitäisi olla). Paras ennustus olisi p-arvo replikointi kokeilu on huomattavasti lähempänä keskiarvo p-arvo jakelu kuin p-arvo on saatu alkuperäisessä kokeessa. Minkä tahansa hypoteesin mukaan pienempi alkuperäisessä kokeessa julkaistu p-arvo (esim. 0,001 eikä 0.,01), mitä todennäköisemmin se edustaa suurempaa etäisyyttä p-arvosta p-arvon keskiarvosta, mikä merkitsee lisääntynyttä regressiota keskiarvoon.

Kaikki tämä tarkoittaa, että binary päätöksiä, jotka perustuvat p-arvot, noin hylkäämistä tai hyväksymistä hypoteeseja, vahvuus todisteita (Fisher 1925, 1973), tai noin vakavuus testi (Mayo, 1996), on epäluotettava päätöksiä. Tämän voidaan väittää olevan hyvä syy olla käyttämättä p-arvoja ollenkaan, tai ainakaan käyttää niitä tehdä päätöksiä siitä, onko vai ei arvioida tieteellisiä hypoteeseja on oikea (Amrhein & al., 2018).,

Virhe Hinnat ja Muuttujan Alfa-Tasot

Toinen haitta käyttää mitään alfa-tason julkaisu on, että suhteellinen merkitys Tyypin I ja Tyypin II virheitä saattaa vaihdella eri tutkimuksissa sisällä tai alueiden välillä ja tutkijat (Trafimow ja Earp, 2017). Asetus huopa taso joko 0,05 tai 0.005, tai jotain muuta, pakottaa tutkijat teeskennellä, että suhteellinen merkitys Tyypin I ja Tyypin II virheitä on jatkuvasti. Benjamin ym. (2018) yritä perustella suositustaan vähentää 0.,005 tasolla huomauttaa muutamia alueita tiede, joka käyttää hyvin alhainen alfa-tasoa, mutta tämä havainto on sopusoinnussa ajatus, että huopa tasolla koko tiede on ei-toivottuja. Ja on olemassa hyviä syitä, miksi vaihtelu eri aloilla ja aiheita on odotettavissa: monenlaisia tekijät voivat vaikuttaa suhteellinen merkitys Tyypin I ja Tyypin II virheitä, mikä tekee tahansa viltti suositus toivottavaa. Näitä tekijöitä voivat olla teorian selkeys, lisäoletukset, käytännön tai sovelletut huolenaiheet tai kokeellinen jäykkyys., Todellakin, Miller ja Ulrich (2016) osoitti, miten nämä ja muut tekijät on suora vaikutus lopulliseen tutkimukseen loppuratkaisu. Siellä on vaikuttava kirjallisuus osoittaa vaikeuksia asetus huopa tason suositus (esim., Buhl-Mortensen, 1996; Sitruunat et al., 1997; Sitruunat ja Victor, 2008; Lieberman ja Cunningham, 2009; Myhr, 2010; Riisi ja Trafimow, 2010; Mudge et al., 2012; Lakens et al., 2018).

Kuitenkin, me emme väitä, että jokainen tutkija olisi saada asettaa oman alpha-tasolla kunkin tutkimuksen suosittelema Neyman ja Pearson (1933) ja Lakens et al., (2018), koska siinäkin on ongelmia (Trafimow ja Earp, 2017). Esimerkiksi muuttujan kynnysarvot, monia vanhoja ongelmia merkitys testaus on vielä ratkaisematta, kuten ongelmia regressio, keskiarvo p-arvot, inflaation vaikutus koot (the ”voittajan kirous”, ks. alla), valikoiva raportointi ja julkaisu bias, ja yleinen haitta pakottaa päätöksiä liian nopeasti, eikä se ottaen huomioon kumulatiiviset todisteet eri kokeiluja. Ottaen huomioon kaiken tilastolliseen päättelyyn liittyvän epävarmuuden (Grönlanti, 2017, 2018; Amrhein et al.,, 2018), epäilemme vahvasti, että voisimme menestyksellisesti ”hallita” virhetasoja, jos vain perustelisimme alfa-tasomme ja muut päätökset ennen tutkimusta, kuten Lakens et al. (2018) näyttävät ehdottavan kommentissaan Benjamin et al. (2018). Siitä huolimatta Lakens et al. (2018) päättele, että termiä ”tilastollisesti merkitsevä” ei pitäisi enää käyttää.”Olemme samaa mieltä, mutta me uskomme, että merkitsevyyden testaus perusteltua alfa on edelleen merkitystä testaus, onko termi ”merkitys” on käytetty tai ei.,

ottaen Huomioon, että huopa ja muuttujan alfa-tasoa molemmat ovat ongelmallisia, se on järkevää uudelleen tilastollinen merkitsevyys, mutta luopua merkitys testit, ehdottivat McShane ym. (2018) ja Amrhein ja Grönlanti (2018), kaksi muuta kommenttia Benjamin et al. (2018).

Määritellään Toistettavuus

Vielä toinen haitta liittyy siihen, mitä Benjamin et al. (2018) mainostetaan tärkein etu ehdotuksensa, että julkaistut tulokset ovat toistettavissa käyttäen 0.005 kuin 0.05 alpha tasolla., Tämä riippuu siitä, mitä tarkoitetaan ”replikaatilla” (KS.Lykken, 1968, joitakin määritelmiä). Jos yksi vaatii samalla alpha tasolla alkuperäinen tutkimus ja tutkimuksen replikointi, sitten emme näe mitään syytä uskoa, että siellä on enemmän onnistuneen kopioivat käyttää 0.005 tasolla kuin käyttämällä 0.05 tasolla. Itse asiassa, tilastollinen regressio argumentti tehty aiemmin viittaa siihen, että regressio-ongelma on vieläkin pahempi käyttäen 0.005 kuin käyttämällä 0.05. Vaihtoehtoisesti Benjamin et al. (2018) näyttää siltä, että voisi käyttää 0,005 alkuperäiseen tutkimukseen ja 0,05 replikaatiotutkimukseen., Tässä tapauksessa olemme samaa mieltä, että yhdistelmä on 0,005 ja 0,05 luo vähemmän epäonnistuneita kopioivat kuin yhdistelmä 0,05 ja 0,05 alkuperäisen ja replikointi tutkimukset, vastaavasti. Tämä tulee kuitenkin kalliiksi mielivaltaisesti. Oletetaan, että kaksi tutkimukset tulevat p < 0,005 ja p < 0.05, vastaavasti. Tämä laskettaisiin onnistuneeksi replikaatioksi. Sen sijaan oletetaan, että molemmat tutkimukset tulevat p < 0,05 ja p < 0.005, vastaavasti., Vain toinen tutkimus laskisi, eikä yhdistelmä osoittaisi onnistunutta replikaatiota. Vaatimalla, että asetus sulku 0,005 tekee tutkimusta enemmän toistettavissa olisi kysyntää paljon enemmän spesifisyys suhteessa, miten käsitteellistää toistettavuus.

lisäksi emme näe yksittäistä replikaatiomenestystä tai epäonnistumista lopullisena. Jos halutaan antaa vahva peruste replikaatiomenestykselle tai epäonnistumiselle, on suotavaa tehdä useita replikaatioyrityksiä. Kuten todistavat viimeaikaiset onnistuneet replikaatiotutkimukset kognitiivisessa psykologiassa (Zwaan et al.,, 2017) ja yhteiskuntatieteitä (Mullinix et al., 2015), teorian laatu ja se, missä määrin mallioletukset täyttyvät, vaikuttavat merkittävästi toistettavuuteen.

Kyseenalaistaa Oletukset

keskustelu toistaiseksi on teeskentelemällä, että oletukset, joiden perusteella tulkinta p-arvot ovat totta. Mutta kuinka todennäköistä tämä on? Berk ja Freedman (2003) ovat todenneet vahvasti, että oletukset satunnaisesta ja riippumattomasta otannasta populaatiosta pitävät harvoin paikkansa., Ongelmat ovat erityisen tärkeitä kliinisessä sciences, jossa valheellisuus oletuksia, sekä erojen tilastollinen ja kliininen merkitys, ovat erityisen ilmeisiä ja dramaattinen (Bhardwaj et al., 2004; Ferrill ym., 2010; Fethney, 2010; Sivu, 2014). Kuitenkin, tilastollisia testejä ei vain testata hypoteeseja, mutta lukemattomia olettamuksia ja koko ympäristö, jossa tutkimus tapahtuu (Grönlanti, 2017, 2018; Amrhein & al., 2018)., Ongelma todennäköisesti vääriä olettamuksia, yhdessä muiden ongelmia jo keskustelleet, tehdä näennäistä keräämään totuudesta, p-arvot, tai jokin muu tilastollinen menetelmä, vielä dramaattisempi.

Väestön Vaikutus Koko

jatketaan merkitys ja replikointi kysymyksiä, palataan teeskentely, että mallin oletukset ovat oikein, pitäen mielessä, että tämä on epätodennäköistä. Ajattele, että asiat ovat nyt käytössä testejä merkitystä kanssa 0.,05 kriteeri, väestön vaikutus koko on tärkeä rooli sekä saada tilastollinen merkitsevyys (kaikki muu on yhtä suuri, otos vaikutus koko on suurempi, jos väestön vaikutus koko on suurempi) ja saada tilastollista merkittävyyttä kahdesti onnistunut replikointi. Siirtyminen 0.005 sulku ei vähennä merkitystä väestön vaikutus koko, ja lisäisi sen merkitystä, ellei näytteen koot kasvoivat merkittävästi niitä tällä hetkellä käytetään. On myös syytä hylätä se, että toistettavuuden pitäisi riippua väestövaikutuksen koosta., Nähdä tämän nopeasti, harkita yksi tärkeimmistä tieteen kokeita kaikkien aikojen, Michelson ja Morley (1887). He käyttivät interferometri testata, onko maailmankaikkeus on täynnä luminiferous eetteri, jonka avulla valo matkustaa Maan tähdet. Niiden vaikutus näytteen koko oli hyvin pieni, ja fyysikot hyväksyä, että väestön vaikutus koko on nolla, koska ei ole luminiferous eetteri. Käyttämällä perinteisiä merkityksellisyystestejä joko 0,05 tai 0.,005 sulku, jäljittelevän Michelson ja Morley olisi ongelmallista (ks. Sawilowsky, 2003, keskustella tämän kokeilun yhteydessä hypoteesin testaus). Ja silti fyysikot pitävät koetta erittäin replikoitavana (KS.myös Meehl, 1967). Mikä tahansa ehdotus, joka sisältää p-arvo hylkäämisperusteet pakottaa lisääntymään todennäköisyys voidaan vaikuttaa väestön vaikutus koko, ja niin on hylättävä, jos hyväksymme ajatuksen, että toistettavuus ei pitäisi olla riippuvainen väestön vaikutus koko.

lisäksi alfatason ollessa 0.,005, suuri vaikutus kokoja olisi enemmän tärkeää, että julkaisu, ja tutkijat saattavat nojata enemmän kohti ”ilmeinen” tutkimus kuin kohti testaus luovia ideoita, missä siellä on enemmän riskiä pieniä vaikutuksia ja p-arvot, jotka eivät täytä 0.005 bar. Hyvin todennäköisesti, syy null tulokset ovat niin vaikea julkaista tieteiden, kuten psykologian, koska perinne käyttää p-arvo cutoffs on niin syvään juurtunut. Olisi hyödyllistä lopettaa tämä perinne.,

julkaistujen Efektikokojen tarkkuus

on suotavaa, että tieteellisissä kirjallisuuksissa julkaistut faktat heijastavat tarkasti todellisuutta. Harkitse uudelleen regression kysymys. Tiukempi kriteeri tasolla publishing, mitä enemmän päässä on alkaen löytää joka kulkee kriteeri keskiarvo, ja niin on yhä regressio vaikutus. Jopa 0: ssa.,05 alpha tasolla, tutkijat ovat jo pitkään tunnustettu, että julkaistu vaikutus kokoja todennäköisesti eivät vastaa todellisuutta, tai ainakin ole todellisuutta, joka olisi nähnyt, jos siellä oli paljon kopioivat jokaisen kokeilla ja kaikki olivat julkaistu (katso Briggs, 2016; Grice, 2017; Hyman, 2017; Kline, 2017; Locascio, 2017a,b; Merkit, 2017 viimeaikainen keskustelu tämä ongelma). Kohtuullisen otoskoon ja kohtuullisen väestövaikutuksen koon mukaan poikkeuksellisen suuret otosvaikutuskoot johtavat p-arvoihin, jotka täyttävät 0,05 tason eli 0.,005-taso, tai mikä tahansa muu alfataso, kuten tilastollisen regression kannalta on ilmeistä. Ja yleensä pieni otos, tilastollisesti merkittäviä vaikutukset ovat usein yliarvioi väestön vaikutus koot, joka on nimeltään ”vaikutus koko inflaatio”, ”totuus inflaatio,” tai ”voittajien kirous” (Amrhein & al., 2017). Vaikutus koko yliarviointi oli empiirisesti osoitettu Avoin Tiede ja tutkimus-Yhteistyötä (2015), jossa keskimääräinen vaikutus koko replikointi kohortin tutkimuksia oli huomattavasti vähennetty keskimääräinen vaikutus koko alkuperäisen kohortin (alkaen 0.403 että 0.197)., Siirtyminen tiukempaan 0.005 katkaisuun johtaisi vielä huonompaan vaikutuskoon yliarviointiin (Button et al., 2013; Amrhein and Greenland, 2018). Merkitystä on julkaissut vaikutus koot tarkasti väestön vaikutus koot ristiriidassa käytön kynnys perusteita ja merkitystä testit, milloin tahansa alpha tasolla.

Otoksen Koko ja Vaihtoehtojen Merkitys Testaus

korostamme, että replikointi riippuu paljolti otoksen koosta, mutta on olemassa tekijöitä, jotka häiritsevät tutkijat käyttää suuri otos tarvitaan, jotta hyvä näytteenotto tarkkuus ja toistettavuus., Suurten otoskokojen hankkimisesta aiheutuvien ilmeisten kustannusten lisäksi voi olla aliarvostusta siitä, kuinka paljon otoskoolla on merkitystä (Vankov et al., 2014), merkityksestä kannustimia suosia uutuus yli toistettavuus (Nosek et al., 2012) ja vallalla harhakäsitys, että täydennys p-arvoja toimenpiteiden toistettavuus (Cohen, 1994; Thompson, 1996; Grönlanti et al., 2016). Näytteiden koon huomioiminen ehdottaa vaihtoehtoa merkitsevyystestille., Trafimow (2017; Trafimow ja MacDonald, 2017) ehdotti menettelyn seuraavasti: tutkija määrittää, kuinka lähellä hän haluaa näytteen tilastoja niiden vastaavan perusjoukon parametrit ja haluttu todennäköisyys on niin lähellä. Trafimowin yhtälöistä voidaan saada tarvittava otoskoko tämän läheisyysperiaatteen täyttämiseksi., Tutkija sitten saa tarvittavan otoksen koko, laskee kuvailevia tilastoja, ja vie niitä tarkkoja arvioita väestön parametrit (alustavasti uusia tietoja, tietenkin, optimaalinen tapa saada luotettava arvio on kautta vankka menetelmiä, katso Huber, 1972; Tukey, 1979; Rousseeuw, 1991; Portnoy ja Hän, 2000; Erceg-Hurn ym., 2013; Field and Wilcox, 2017). Vastaavanlaisia menetelmiä on ollut jo pitkään, joissa otoskoko perustuu luottamusvälien tavoiteltuun maksimileveyteen.,

Tämä läheisyys menettely korostaa (a) päättää, mitä se tekee uskoa, että näyte tilastot ovat hyvät arviot väestön parametrit ennen tietojen keräämistä eikä sen jälkeen, ja (b) hankkia riittävän suuri otoskoko voi luottaa siihen, että saatu näyte tilastot todella ovat kuluessa määritelty etäisyydet vastaavat väestön parametrit. Menettely ei myöskään edistää julkaisu bias, koska ei ole sulku julkaistavaksi päätöksiä., Ja läheisyyttä menettely ei ole sama kuin perinteinen valta-analyysi: Ensimmäinen tavoite perinteisen valta-analyysi on löytää otoskoko tarvitaan, on hyvät mahdollisuudet saada tilastollisesti merkittävä p-arvo. Toiseksi perinteiseen tehoanalyysiin vaikuttaa voimakkaasti odotettu vaikutuskoko, kun taas läheisyysprosessiin ei vaikuta odotettu vaikutuskoko normaaleissa (Gaussin) malleissa.

suurempi asia on se, että merkityksellisyystestille on luovia vaihtoehtoja, jotka kohtaavat otoskokoa paljon suoremmin kuin merkitsevyystestaus., ”Tilastollisen toolbox” (Gigerenzer ja Marewski, 2015) lisäksi sisältää, esimerkiksi, luottamusvälit (joka olisi mieluummin nimeksi ja käyttää ”yhteensopivuus välein”—katso Amrhein & al., 2018; Grönlanti, 2018), vastaavuus testit, p-arvot sekä jatkuva toimenpiteitä refutational todisteita malli (Grönlanti, 2018), todennäköisyys suhde, Bayes-menetelmät, tai tiedon kriteerit. Ja valmistus-tai laadunvalvontatilanteissa myös Neyman-Pearsonin päätöksissä voi olla järkeä (Bradley ja Brand, 2016).,

Mutta tieteellinen tutkimus, mikään näistä työkalut pitäisi tulla uusi magic-menetelmää, joka antaa selkeitä mekaanisia vastauksia (Cohen, 1994), koska jokainen valintakriteeri sivuuttaa epävarmuus hyväksi binary päätöksentekoa ja siten tuottaa samoja ongelmia kuin ne, aiheuttama merkitsevyyden testausta. Esimerkiksi Bayes-tekijän kynnyksen käyttäminen johtaa samanlaiseen dilemmaan kuin p-arvon kynnys: kuten Konijn et al. (2015) ehdotti, ”Jumala rakastaisi Bayes-tekijää 3,01 lähes yhtä paljon kuin Bayes-kerroin 2,99.,”

Lopulta, päättely ei tulisi perustua yhden tutkimukset ollenkaan (Neyman ja Pearson, 1933; Fisher, 1937; Grönlanti, 2017), eikä kopioivat samasta laboratoriosta, mutta kumulatiiviset todisteet useita riippumattomia tutkimuksia. Se on toivottavaa saada tarkkoja arvioita tutkimuksissa, mutta tärkeämpi tavoite on poistaa julkaisuharha mukaan lukien leveät luottamusvälit ja pieniä vaikutuksia kirjallisuudessa, jota ilman kumulatiiviset todisteet tulee olla vääristynyt (Amrhein & al., 2017, 2018; Amrhein and Greenland, 2018)., Pitkin nämä rivit, Briggs (2016) väittää luopumista parametri-perustuu päättelyyn ja hyväksymällä puhtaasti ennustava, ja siksi todennettavissa, todennäköisyys malleja, ja Grönlannin (2017) näkee ”pakottava tarve päästä pois johdettu statistiikka ja hew tiiviimmin kuvaukset opinto-menettelyjä, tietojen keruu , ja tutkimuksen tuloksena saadut tiedot.”

päätelmä

vaikuttaa aiheelliselta päätyä peruskysymykseen, joka on ollut meillä alusta asti., Pitäisikö julkaisupäätösten tai hypoteesien hyväksymistä tai hylkäämistä koskevien päätösten pääasiallisena perusteena käyttää p-arvoja ja p-arvon kynnysarvoja tai muita tilastollisia välineitä? Pelkästään se, että tutkijat ovat huolissaan replikointi, mutta se on käsitteellistää, osoittaa arvostusta, että yhden tutkimukset ovat harvoin lopullisia ja harvoin perustella lopullinen päätös., Kun arvioidaan vahvuus todisteita, hienostunut tutkijat pitävät, on tosin subjektiivinen tapa, teoreettinen näkökohdat, kuten laajuus, perustelut leveys, ja ennusteita; kannattaa ylimääräiset oletukset yhdistävät nonobservational ehdot teorioita observational ehdot empiirisiä hypoteeseja; vahvuus kokeellinen suunnittelu; ja vaikutuksia sovelluksia. Tätä kaikkea ei voida hyväksyä binaaripäätökseksi, joka perustuu p-arvon kynnysarvoon 0,05, 0,01, 0,005 tai mitään muuta.,

Kirjoittaja Maksut

Kaikki kirjoittajat mainittu on tehty suora panos kirjan tai tukea sen sisältöä, ja hyväksyi sen julkaistavaksi.

eturistiriita Lausunto

FK-N oli palveluksessa Oikostat GmbH. GM on toiminut Janssen Research and Development, LLC: n konsulttina.

muut kirjoittajat ilmoittavat, että tutkimus on tehty ilman mitään kaupallisia tai taloudellisia suhteita, jotka voitaisiin tulkita mahdollisia eturistiriitoja.,

Kiitokset

kiitämme Sander Grönlannin ja Jäähalli Hoekstra kommentteja ja keskusteluja. MG myöntää tukea VEGA 2/0047/15-apurahalta. RvdS tukivat avustusta Alankomaat järjestön tieteellinen tutkimus: NWO-VIDI-45-14-006. Julkaisua tuki taloudellisesti Sveitsin kansallisen tiedesäätiön VA: lle myöntämä apuraha 156294.

Bradley, M. T., and Brand, A. (2016). Merkitsevyyden testausta tarvitsee taksonomia: tai miten Fisher, Neyman-Pearson kiista johti johdettujen hännän heiluttaa mittaus-koira. Psykolia. Rep. 119, 487-504., doi: 10.1177/0033294116662659

PubMed Abstrakti | CrossRef Koko Teksti | Google Scholar

– Briggs, W. M. (2016). Epävarmuus: mallinnuksen, todennäköisyyden ja tilastojen sielu. New York, NY: Springer.

Google Scholar

Cohen, J. (1994). Maapallo on pyöreä (p < 0.05). On. Psykolia. 49, 997–1003.

Google Scholar

Fisher, R. A. (1925). Statistical Methods for Research Workers, 1st Edn. Oliver ja Boyd.

Fisher, R. A. (1937)., Kokeiden suunnittelu, 2.Edn. Oliver ja Boyd.

Fisher, R. A. (1973). Statistical Methods and Scientific Inference, 3rd Edn. Lontoo: Macmillan.

Mayo, D. (1996). Virhe ja kokeellisen tiedon kasvu. Chicago, IL: University of Chicago Press.

Google Scholar

Melton, A. (1962). Toimituksellinen. Käyt. Viim. Psykolia. 64, 553–557. doi: 10.1037/h0045549

CrossRef Koko Teksti

Avoin Tiede ja tutkimus-Yhteistyötä (2015). Psykologisen tieteen uusittavuuden arviointi., Tiede 349: aac4716. doi: 10.1126 / tiede.aac4716

CrossRef Koko Teksti

– Sivulla, P. (2014). Tilastollisen merkityksen lisäksi: kuntoutuksen tutkimuskirjallisuuden kliininen tulkinta. Int. J. Sports Phys. Ther. 9:72.

PubMed Abstract/Google Scholar

Thompson, B. (1996). AERA: n pääkirjoituspolitiikka tilastollisen merkitsevyyden testauksesta: kolme ehdotti uudistuksia. Educc. Res. 25, 26-30. doi: 10.2307/1176337

CrossRef Koko Teksti | Google Scholar

Trafimow, D. (2017)., Luottamuskertoimen avulla filosofinen siirtyminen posteriorista priori-päättelykertoimeksi. Educc. Psykolia. Meas. 77, 831–854. doi: 10.1177/0013164416667977

CrossRef Koko Teksti | Google Scholar

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *