wielu badaczy skrytykowało hipotezy zerowej istotności testowania, choć wielu bronili go zbyt (patrz Balluerka et al., 2005, za recenzję). Czasami zaleca się, aby poziom alfa został zredukowany do bardziej konserwatywnej wartości, aby obniżyć poziom błędu typu I. Na przykład Melton (1962), redaktor Journal of Experimental Social Psychology z lat 1950-1962, faworyzował poziom alfa 0,01 nad typowym poziomem Alfa 0,05. Ostatnio Benjamin et al., (2018) zalecane przesunięcie do 0.005—zgodne z komentarzem Meltona, że nawet poziom 0.01 może nie być „wystarczająco imponujący”, aby uzasadnić publikację (S. 554). Ponadto Benjamin et al. (2018) zastrzegł, że poziom 0.005 Alfa powinien być dla nowych ustaleń, ale były niejasne, co zrobić z ustaleniami, które nie są nowe. Chociaż niekoniecznie potwierdzające testowanie istotności jako preferowaną wnioskową procedurę statystyczną (wielu autorów najwyraźniej faworyzuje procedury bayesowskie), Benjamin et al. (2018) twierdził, że za pomocą 0.,005 odcięcie naprawiłoby wiele z tego, co jest nie tak z testowaniem znaczenia. Niestety, jak zademonstrujemy, problemów z testami istotności nie można w istotny sposób złagodzić jedynie poprzez zastosowanie bardziej konserwatywnego kryterium odrzucenia, a niektóre problemy zaostrzają się poprzez przyjęcie bardziej konserwatywnego kryterium.
rozpoczynamy od kilku roszczeń ze strony Benjamina et al. (2018). Na przykład napisali ” … zmiana progu wartości p jest prosta, dostosowuje się do szkolenia podjętego przez wielu badaczy i może szybko osiągnąć szeroką akceptację.,”Jeśli badanie istotności-przy dowolnym progu wartości p-jest tak źle wadliwe ,jak będziemy go utrzymywać (patrz także Amrhein et al., 2017; Grenlandia, 2017), powody te są wyraźnie niewystarczające, aby uzasadnić jedynie zmianę odcięcia. Rozważ inne twierdzenie: „nowy próg znaczenia pomoże badaczom i czytelnikom lepiej zrozumieć i przekazać dowody.”Ale jeśli naukowcy mają problemy ze zrozumieniem i komunikacją z progiem 0,05, nie jest jasne, w jaki sposób użycie progu 0,005 wyeliminuje te problemy., I zastanów się nad jeszcze innym twierdzeniem: „autorzy i czytelnicy mogą sami podjąć inicjatywę, opisując i interpretując wyniki w bardziej odpowiedni sposób w świetle nowej proponowanej definicji istotności statystycznej.”Ponownie nie jest jasne, w jaki sposób przyjęcie progu 0,005 pozwoli autorom i czytelnikom podjąć inicjatywę w zakresie lepszej interpretacji danych. StÄ … d nawet przed omówieniem naszych gĹ 'Ăłwnych argumentăłw, istnieje powăłd aby czytelnik byĹ' podejrzliwy wobec pochopnych twierdzeĺ ” bez empirycznego poparcia.,
z powyższego, należy wziąć pod uwagę, że podstawowym problemem z testów znaczenia jest to, że celem jest odrzucenie hipotezy zerowej. Cel ten wydaje się domagać-jeśli jeden jest Bayessian – że tylne prawdopodobieństwo hipotezy zerowej powinny być niskie biorąc pod uwagę uzyskane znalezisko. Ale wartość p otrzymuje jest prawdopodobieństwo znalezienia, i bardziej ekstremalnych ustaleń, biorąc pod uwagę, że hipoteza zerowa i wszystkie inne założenia dotyczące modelu były prawidłowe (Grenlandia et al.,, 2016; Grenlandia, 2017), i trzeba by dokonać nieważnego wnioskowania odwrotnego, aby wyciągnąć wniosek o prawdopodobieństwie hipotezy zerowej biorąc pod uwagę odkrycie. A jeśli ktoś jest częstym, nie ma sposobu, aby przejść luki logicznej od prawdopodobieństwa znalezienia i bardziej ekstremalnych ustaleń, biorąc pod uwagę hipotezę zerową, do decyzji o tym, czy należy zaakceptować lub odrzucić hipotezę zerową (Briggs, 2016; Trafimow, 2017). Akceptujemy, że przez logikę częstościową prawdopodobieństwo błędu typu I jest naprawdę niższe, jeśli użyjemy odcięcia 0,005 dla p niż odcięcia 0,05, Wszystko inne jest równe., Akceptujemy również argument Bayesowski Benjamina et al. (2018) że hipoteza zerowa jest mniej prawdopodobne, jeśli p = 0,005 niż Jeśli p = 0,05, Wszystko inne jest równe. Wreszcie uznajemy, że Benjamin et al. (2018) zapewnił usługę dla nauki poprzez dalsze stymulowanie debaty na temat testowania istotności. Ale są ważne kwestie. (2018) wydaje się nie były brane pod uwagę, omówione w następujących sekcjach.,
regresja i powtarzalność
Trafimow i Earp (2017) argumentowali przeciwko ogólnemu pojęciu ustawiania poziomu alfa w celu podejmowania decyzji o odrzuceniu lub nie odrzuceniu hipotez zerowych, a argumenty zachowują swoją siłę, nawet jeśli poziom alfa jest zredukowany do 0,005. W pewnym sensie redukcja ma znaczenie. Jednym z problemów jest to, że wartości p mają zmienność próbkowania, podobnie jak inne statystyki (Cumming, 2012)., Ale wartość p jest szczególny w tym, że jest zaprojektowany, aby wyglądać jak czysty szum, jeśli hipoteza zerowa i wszystkie inne założenia modelu są prawidłowe, w tym przypadku wartość p jest równomiernie rozłożone na (Grenlandia, 2018). Zgodnie z hipotezą alternatywną jej rozkład przesuwa się w dół, przy czym prawdopodobieństwo, że p spadnie poniżej wybranej granicy, jest potęgą testu. Ponieważ rzeczywista moc typowych badań nie jest bardzo wysoka, gdy alternatywa jest poprawna, będzie w dużej mierze kwestią szczęścia, czy próbkowana wartość p jest poniżej wybranego poziomu alfa., Gdy, Jak to często bywa, moc jest znacznie poniżej 50% (Smaldino and McElreath, 2016), badacz jest mało prawdopodobne, aby ponownie próbki wartości p poniżej progu istotności przy replikacji, ponieważ może być o wiele więcej wartości p powyżej niż poniżej progu w rozkładzie wartości p (Goodman, 1992; Senn, 2002; Halsey et al., 2015). Problem ten pogarsza się wraz z obniżeniem odcięcia, ponieważ dla stałej wielkości próbki moc spada wraz z odcięciem.,
nawet jeśli nie zastosowano odcięcia, zjawisko regresji do średniej sugeruje, że wartość p uzyskana w eksperymencie replikacji może się regresować do wartości średniej P, gdyby wykonano wiele replikacji. Ile regresji powinno wystąpić? Gdy hipoteza zerowa jest niepoprawna, to zależy od tego, jak zmienna punkt szacuje, a tym samym wartości p są.
ponadto zmienność wartości p powoduje słabą korelację między replikacjami., Na podstawie danych umieszczonych online przez Open Science Collaboration (2015; https://osf.io/fgjvw) Trafimow i de Boer (przedłożeni) obliczyli korelację wynoszącą tylko 0,004 pomiędzy wartościami p uzyskanymi w pierwotnej kohorcie badań z wartościami P uzyskanymi w kohorcie replikacji, w porównaniu do oczekiwanej korelacji zerowej, jeśli wszystkie hipotezy i modele zerowe użyte do obliczenia wartości p były poprawne (a zatem wszystkie wartości p były równomiernie rozłożone).,
istnieje kilka możliwych przyczyn niskiej korelacji, w tym, że większość badanych skojarzeń mogła być w rzeczywistości prawie zerowa, więc wartości p pozostały przede wszystkim funkcją szumu i dlatego należy oczekiwać korelacji bliskiej zeru., Ale nawet jeśli Wiele lub większość asocjacji było dalekich od null, w ten sposób przesuwając wartości p w dół w kierunku zera i tworząc dodatnią korelację na replikacji, korelacja ta pozostanie niska nie tylko ze względu na duży błąd losowy w wartościach p, ale także ze względu na niedoskonałą metodologię replikacji i nieliniową zależność między wartościami p i rozmiarami efektów („korygowanie” korelacji dla tłumienia z powodu ograniczenia zakresu, w pierwotnej kohorcie badań, zwiększa korelację do 0,01, która jest nadal niska)., Ponadto, jeśli większość badanych hipotez zerowych była fałszywa, niska powtarzalność wartości p, O czym świadczy Współpraca Open Science, może być częściowo przypisana błędowi publikacji spowodowanemu kryterium publikacji opartym na wartościach p (Locascio, 2017a; Amrhein and Greenland, 2018)., Ale jeśli ktoś chce dokonać takiego atrybucji, chociaż może to stanowić uzasadnienie dla używania wartości p w hipotetycznym naukowym wszechświecie, w którym wartości p z fałszywych null są bardziej powtarzalne z powodu braku uprzedzeń publikacyjnych, atrybucja stanowi kolejny ważny powód, aby unikać jakichkolwiek kryteriów publikacji opartych na wartościach p lub innych wynikach statystycznych (Amrhein and Greenland, 2018).,
tak więc uzyskana wartość p w oryginalnym badaniu ma niewiele wspólnego z wartością P uzyskaną w eksperymencie replikacji (co jest właśnie tym, co powinna mieć miejsce rzeczywista teoria wartości p). Najlepszą prognozą byłaby wartość p dla eksperymentu replikacji znacznie bliższa średniej rozkładu wartości p niż wartości p uzyskanej w pierwotnym eksperymencie. W każdej hipotezie, niższa wartość p opublikowane w oryginalnym eksperymencie (na przykład, 0.001 zamiast 0.,01), tym bardziej prawdopodobne, że reprezentuje większą odległość wartości p od średniej wartości p, co oznacza zwiększoną regresję do średniej.
wszystko to oznacza, że decyzje binarne, oparte na wartościach p, o odrzuceniu lub akceptacji hipotez, o sile dowodów (Fisher, 1925, 1973) lub o surowości testu (Mayo, 1996), będą decyzjami zawodnymi. Można argumentować, że jest to dobry powód, aby nie używać wartości p w ogóle, lub przynajmniej nie używać ich do podejmowania decyzji o tym, czy oceniać hipotezy naukowe jako prawidłowe (Amrhein et al., 2018).,
wskaźniki błędów i zmienne poziomy Alfa
kolejną wadą korzystania z dowolnego ustawionego poziomu alfa do publikacji jest to, że względne znaczenie błędów typu I i typu II może się różnić w zależności od badań w obrębie lub między obszarami i naukowcami (Trafimow and Earp, 2017). Ustawienie ogólnego poziomu 0,05 lub 0,005 lub czegokolwiek innego zmusza badaczy do udawania, że względne znaczenie błędów typu I i typu II jest stałe. Benjamin et al. (2018) spróbuj uzasadnić swoje zalecenie, aby zmniejszyć do 0.,005 poziom wskazując na kilka obszarów nauki, które wykorzystują bardzo niski poziom alfa, ale ta obserwacja jest tak samo zgodna z ideą, że ogólny poziom w nauce jest niepożądany. Istnieją również powody, dla których należy się spodziewać zróżnicowania w różnych dziedzinach i tematach: duża różnorodność czynników może wpływać na względne znaczenie błędów typu I i typu II, co powoduje, że wszelkie ogólne zalecenia są niepożądane. Czynniki te mogą obejmować jasność teorii, założenia pomocnicze, praktyczne lub stosowane zagadnienia lub rygor eksperymentalny., Rzeczywiście, Miller and Ulrich (2016) pokazał, jak te i inne czynniki mają bezpośredni wpływ na ostateczną wypłatę badań. Istnieje imponująca Literatura świadcząca o trudnościach w ustalaniu ogólnego zalecenia poziomu (np. Buhl-Mortensen, 1996; Lemons et al., 1997; Lemons and Victor, 2008; Lieberman and Cunningham, 2009; Myhr, 2010; Rice and Trafimow, 2010; Mudge et al., 2012; Lakens et al., 2018).
jednak nie twierdzimy, że każdy badacz powinien ustawić swój własny poziom alfa dla każdego badania, zgodnie z zaleceniami Neymana i Pearsona (1933) oraz Lakensa i in., (2018), bo to też ma problemy (Trafimow and Earp, 2017). Na przykład, ze zmiennymi progami, wiele starych problemów z testowaniem istotności pozostaje nierozwiązane, takie jak problemy regresji do średniej wartości p, inflacja rozmiarów efektów („Klątwa zwycięzcy”, patrz poniżej), selektywne raportowanie i błąd publikacji oraz ogólna wada wymuszania decyzji zbyt szybko, a nie biorąc pod uwagę skumulowane dowody w eksperymentach. W świetle całej niepewności związanej z wnioskowaniem statystycznym (Grenlandia, 2017, 2018; Amrhein et al.,, 2018), mocno wątpimy, że moglibyśmy z powodzeniem „kontrolować” poziomy błędów, gdybyśmy tylko uzasadnili nasz poziom alfa i inne decyzje przed badaniem, jak Lakens et al. (2018) wydają się sugerować w swoim komentarzu do Benjamin et al. (2018). Niemniej jednak, Lakens et al. (2018) stwierdza, że „termin” statystycznie istotny ” nie powinien być już używany.”Zgadzamy się, ale uważamy, że testowanie znaczenia z uzasadnionym alfa jest nadal testowaniem znaczenia, niezależnie od tego, czy termin „znaczenie” jest używany, czy nie.,
biorąc pod uwagę, że zarówno koc, jak i zmienne poziomy alfa są problematyczne, rozsądne jest nie Redefiniowanie istotności statystycznej, ale całkowite pominięcie testów istotności, jak sugeruje McShane et al. (2018) i Amrhein I Grenlandia (2018), dwa inne komentarze do Benjamin et al. (2018).
Definiowanie replikacji
jeszcze jedna wada dotyczy tego, co (2018) reklamowane jako główną zaletą ich propozycji, że opublikowane ustalenia będą bardziej replikowalne przy użyciu poziomu 0.005 niż 0.05 Alfa., To zależy od tego, co oznacza „replikacja” (zobacz Lykken, 1968, dla niektórych definicji). Jeśli ktoś nalega na ten sam poziom alfa dla oryginalnego badania i badania replikacji, to nie widzimy powodu, aby sądzić, że nie będzie bardziej udane replikacje przy użyciu poziomu 0.005 niż przy użyciu poziomu 0.05. W rzeczywistości argument regresji statystycznej przedstawiony wcześniej sugeruje, że problem regresji jest jeszcze gorszy przy użyciu 0,005 niż przy użyciu 0,05. Alternatywnie, jako Benjamin et al. (2018) wydaje się sugerować, można użyć 0,005 dla oryginalnego badania i 0,05 dla badania replikacji., W tym przypadku zgadzamy się, że kombinacja 0,005 i 0,05 spowoduje mniej nieudanych replikacji niż kombinacja 0,05 i 0,05 odpowiednio dla badań początkowych i replikacyjnych. Jednak wiąże się to z wysoką ceną arbitralności. Załóżmy, że dwa badania są w p < 0.005 i p < 0.05, odpowiednio. To by się liczyło jako udana replikacja. W przeciwieństwie do tego, Załóżmy, że oba badania mają odpowiednio p < 0,05 i p < 0,005., Liczy się tylko drugie badanie, a kombinacja nie kwalifikuje się jako wskazująca na pomyślną replikację. Naleganie, że ustawienie odcięcia na poziomie 0,005 sprawia, że badania są bardziej replikowalne, wymagałoby znacznie większej szczegółowości w odniesieniu do sposobu konceptualizacji replikowalności.
ponadto nie widzimy sukcesu ani porażki pojedynczej replikacji jako ostatecznej. Jeśli ktoś chce mieć mocne argumenty za sukcesem lub porażką replikacji, pożądane są wielokrotne próby replikacji. Jak potwierdzają ostatnie udane badania replikacji w psychologii poznawczej (Zwaan et al.,, 2017) i nauk społecznych (Mullinix et al., 2015), jakość teorii i stopień, w jakim spełnione są założenia modelu, będą miały istotny wpływ na odtwarzalność.
kwestionowanie założeń
dyskusja do tej pory odbywa się pod pretekstem, że założenia leżące u podstaw interpretacji wartości p są prawdziwe. Ale jak prawdopodobne jest to? Berk and Freedman (2003) dokonali silnego przypadku, że założenia losowego i niezależnego pobierania próbek z populacji rzadko są prawdziwe., Problemy te są szczególnie istotne w naukach klinicznych, gdzie fałsz założeń, a także rozbieżności między znaczeniem statystycznym i klinicznym, są szczególnie oczywiste i dramatyczne (Bhardwaj et al., 2004; Ferrill et al., 2010; Fethney, 2010; Page, 2014). Jednak testy statystyczne nie tylko testują hipotezy, ale niezliczone założenia i całe środowisko, w którym prowadzone są badania (Grenlandia, 2017, 2018; Amrhein et al., 2018)., Problem prawdopodobnych fałszywych założeń, w połączeniu z innymi już omawianymi problemami, sprawia, że iluzoryczne pozyskiwanie prawdy z wartości p lub z jakiejkolwiek innej metody statystycznej jest jeszcze bardziej dramatyczne.
wielkość efektu Populacyjnego
kontynuujmy kwestie istotności i replikacji, wracając do pretensji, że założenia modelu są poprawne, pamiętając, że jest to mało prawdopodobne. Zastanów się nad tym, jak ważne są teraz testy z 0.,05 kryterium, wielkość efektu populacji odgrywa ważną rolę zarówno w uzyskaniu istotności statystycznej (wszystkie inne są równe, wielkość efektu próbki będzie większa, jeśli wielkość efektu populacji jest większa) i w uzyskaniu istotności statystycznej dwukrotnie dla pomyślnej replikacji. Przejście na 0,005 odcięcia nie zmniejszyłoby znaczenia wielkości efektu populacyjnego i zwiększyłoby jego znaczenie, chyba że wielkość próby znacznie wzrosła z tych obecnie stosowanych. I jest dobry powód, aby odrzucić, że odtwarzalność powinna zależeć od wielkości efektu populacji., Aby to szybko zobaczyć, rozważ jeden z najważniejszych eksperymentów naukowych wszech czasów, autorstwa Michelsona i Morleya (1887). Użyli interferometru, aby sprawdzić, czy wszechświat jest wypełniony eterem świecącym, który pozwala światłu podróżować na Ziemię z gwiazd. Ich wielkość efektu próbki była bardzo mała, a fizycy akceptują, że wielkość efektu populacji jest zerowa, ponieważ nie ma eteru świecącego. Przy użyciu tradycyjnych testów o znaczeniu 0,05 lub 0.,005 odcięcia, replikacja Michelson i Morley byłoby problematyczne (patrz Sawilowsky, 2003, do omówienia tego eksperymentu w kontekście testowania hipotezy). A jednak fizycy uważają eksperyment za wysoce powtarzalny (Zobacz też Meehl, 1967). Każda propozycja, która zawiera kryteria odrzucenia wartości p wymusza prawdopodobieństwo replikacji ma wpływ na wielkość efektu populacji, a więc musi zostać odrzucona, jeśli zaakceptujemy pogląd, że odtwarzalność nie powinna zależeć od wielkości efektu populacji.
dodatkowo z poziomem alfa 0.,005, duże rozmiary efektów byłyby ważniejsze dla publikacji, a naukowcy mogą skłaniać się znacznie bardziej w kierunku „oczywistych” badań niż w kierunku testowania kreatywnych pomysłów, w których istnieje większe ryzyko małych efektów i wartości p, które nie spełniają 0,005 bara. Bardzo prawdopodobne, powodem, dla którego wyniki zerowe są tak trudne do opublikowania w naukach takich jak psychologia, jest to, że tradycja stosowania odcięcia wartości p jest tak zakorzeniona. Korzystne byłoby zakończenie tej tradycji.,
dokładność opublikowanych rozmiarów efektów
pożądane jest, aby opublikowane fakty w literaturze naukowej dokładnie odzwierciedlały rzeczywistość. Rozważmy ponownie problem regresji. Im bardziej rygorystyczny poziom kryterium publikacji, tym większy jest dystans od stwierdzenia, które przechodzi kryterium do średniej, a więc występuje rosnący efekt regresji. Nawet na 0.,05 poziom alfa, naukowcy od dawna uznają, że opublikowane rozmiary efektów prawdopodobnie nie odzwierciedlają rzeczywistości, a przynajmniej nie rzeczywistości, która byłaby widziana, gdyby było wiele replikacji każdego eksperymentu i wszystkie zostały opublikowane (zobacz Briggs, 2016; Grice, 2017; Hyman,2017; Kline, 2017; Locascio, 2017a, b; Marks, 2017 dla niedawnej dyskusji na temat tego problemu). W rozsądnych rozmiarach próbek i rozsądnych rozmiarach efektu populacji, to nienormalnie duże rozmiary efektu próbki powodują wartości p, które spełniają poziom 0,05 lub 0.,Poziom 005, lub jakikolwiek inny poziom alfa, jak jest oczywiste z punktu widzenia regresji statystycznej. A przy typowo niskich rozmiarach próbek, statystycznie znaczące efekty często są przeszacowania wielkości efektu populacji, który jest nazywany „inflacja wielkości efektu”, „inflacja prawdy” lub „Klątwa zwycięzcy” (Amrhein et al., 2017). Przeszacowanie wielkości efektu zostało empirycznie zademonstrowane w Open Science Collaboration (2015), gdzie średnia wielkość efektu w kohorcie replikacji badań została znacznie zmniejszona ze średniej wielkości efektu w kohorcie pierwotnej (z 0,403 do 0,197)., Zmiana na bardziej rygorystyczne 0.005 odcięcia spowodowałoby jeszcze gorsze przeszacowanie rozmiaru efektu (przycisk et al., 2013; Amrhein and Greenland, 2018). Znaczenie opublikowanych rozmiarów efektów dokładnie odzwierciedla rozmiary efektów populacyjnych jest sprzeczne z zastosowaniem kryteriów progowych i testów istotności, na dowolnym poziomie Alfa.
wielkość próbki i alternatywy dla badania istotności
podkreślamy, że replikacja zależy w dużej mierze od wielkości próbki, ale istnieją czynniki, które zakłócają naukowców za pomocą dużych rozmiarów próbek niezbędnych dla dobrej precyzji pobierania próbek i replikacji., Oprócz oczywistych kosztów uzyskania dużych rozmiarów próbek, nie może być niedocenianie, ile Rozmiar próbki ma znaczenie (Vankov et al., 2014), o znaczeniu zachęt do faworyzowania Nowości nad powtarzalnością (Nosek et al., 2012) i rozpowszechnionego błędnego przekonania, że uzupełnienie wartości p mierzy odtwarzalność (Cohen, 1994; Thompson, 1996; Greenland et al., 2016). Skupienie się na wielkości próbki sugeruje alternatywę dla badania istotności., Trafimow (2017; Trafimow and MacDonald, 2017) zasugerował procedurę w następujący sposób: badacz określa, jak blisko chce, aby Statystyki próbki były do odpowiednich parametrów populacji i pożądanego prawdopodobieństwa, że jest tak blisko. Równania trafimowa można wykorzystać do uzyskania niezbędnej wielkości próbki, aby spełnić tę specyfikację bliskości., Badacz następnie uzyskuje niezbędną wielkość próbki, oblicza statystyki opisowe i przyjmuje je jako dokładne szacunki parametrów populacji (tymczasowo na nowych danych, oczywiście; optymalnym sposobem uzyskania wiarygodnego oszacowania jest za pomocą solidnych metod, patrz Huber, 1972; Tukey, 1979; Rousseeuw, 1991; Portnoy and He, 2000; Erceg-Hurn et al., 2013; Field and Wilcox, 2017). Od dawna istnieją podobne metody, w których wielkość próby opiera się na pożądanej maksymalnej szerokości dla przedziałów ufności.,
ta procedura bliskości podkreśla (a) decydując, co trzeba wierzyć, że statystyki próby są dobre szacunki parametrów populacji przed gromadzeniem danych, a nie później, oraz (b) uzyskanie wystarczająco dużej wielkości próby, aby mieć pewność, że uzyskane statystyki próby naprawdę są w określonych odległościach odpowiednich parametrów populacji. Procedura nie promuje również uprzedzeń dotyczących publikacji, ponieważ nie ma ograniczeń w podejmowaniu decyzji dotyczących publikacji., A procedura bliskości nie jest taka sama jak tradycyjna analiza mocy: po pierwsze, celem tradycyjnej analizy mocy jest znalezienie wielkości próbki potrzebnej do uzyskania statystycznie istotnej wartości P. Po drugie, tradycyjna analiza mocy ma duży wpływ na oczekiwaną wielkość efektu, podczas gdy procedura bliskości nie ma wpływu na oczekiwaną wielkość efektu w normalnych (Gaussa) modelach.
większym punktem jest to, że istnieją kreatywne alternatywy dla testowania znaczenia, które konfrontują się z problemem wielkości próby znacznie bardziej bezpośrednio niż testowanie znaczenia., „Zestaw narzędzi statystycznych „(Gigerenzer and Marewski, 2015) obejmuje również, na przykład, przedziały ufności (które powinny raczej zostać przemianowane i być używane jako „przedziały zgodności” – patrz Amrhein et al., 2018; Grenlandia, 2018), testy równoważności, wartości p jako ciągłe miary dowodów obalających w stosunku do modelu (Grenlandia, 2018), wskaźniki prawdopodobieństwa, metody bayesowskie lub kryteria informacyjne. A w sytuacjach produkcyjnych lub kontroli jakości również decyzje Neyman-Pearson mogą mieć sens (Bradley and Brand, 2016).,
ale dla badań naukowych żadne z tych narzędzi nie powinno stać się nową metodą magiczną dającą jednoznaczne mechaniczne odpowiedzi (Cohen, 1994), ponieważ każde kryterium wyboru zignoruje niepewność na rzecz podejmowania decyzji binarnych i w ten sposób wytworzy te same problemy, co te spowodowane testowaniem znaczenia. Zastosowanie progu dla współczynnika Bayesa, na przykład, spowoduje podobny dylemat jak przy progu dla wartości p: jak Konijn et al. (2015) zasugerował: „Bóg pokochałby Współczynnik Bayesa wynoszący 3,01 prawie tak samo jak współczynnik Bayesa wynoszący 2,99.,”
wreszcie, wnioskowanie nie powinno być oparte na pojedynczych badaniach w ogóle (Neyman and Pearson, 1933; Fisher, 1937; Grenlandia, 2017), ani na replikacjach z tego samego laboratorium, ale na skumulowanych dowodach z wielu niezależnych badań. Pożądane jest uzyskanie precyzyjnych szacunków w tych badaniach, ale ważniejszym celem jest wyeliminowanie uprzedzeń publikacyjnych poprzez włączenie szerokich przedziałów ufności i małych efektów w literaturze, bez których skumulowane dowody zostaną zniekształcone (Amrhein et al., 2017, 2018; Amrhein i Grenlandia, 2018)., Zgodnie z tymi założeniami Briggs (2016) argumentuje za porzuceniem wnioskowania opartego na parametrach i przyjęciem czysto predykcyjnych, a zatem weryfikowalnych, modeli prawdopodobieństwa, a Grenlandia (2017) widzi „straszną potrzebę odejścia od wnioskowanych statystyk i ściślejszego podejścia do opisów procedur badawczych, gromadzenia danych i danych wynikowych.”
podsumowanie
wydaje się właściwe, aby zakończyć podstawową kwestią, która była z nami od początku., Czy wartości p i progi wartości p lub jakiekolwiek inne narzędzie statystyczne powinny być stosowane jako główne kryterium podejmowania decyzji o publikacji lub decyzji o przyjęciu lub odrzuceniu hipotez? Sam fakt, że naukowcy zajmują się replikacją, jednak jest ona konceptualizowana, wskazuje na uznanie, że pojedyncze badania rzadko są ostateczne i rzadko uzasadniają ostateczną decyzję., Oceniając siłę dowodów, wyrafinowani badacze biorą pod uwagę, w sposób subiektywny, rozważania teoretyczne, takie jak Zakres, Zakres objaśnień i moc predykcyjna; wartość pomocniczych założeń łączących nieobserwacyjne terminy w teoriach z terminami obserwacyjnymi w hipotezach empirycznych; Siła projektu eksperymentalnego; i implikacje dla zastosowań. Sprowadzanie tego wszystkiego do decyzji binarnej opartej na progu wartości p wynoszącym 0,05, 0,01, 0,005 lub cokolwiek innego jest niedopuszczalne.,
wkład autora
wszyscy wymienieni autorzy wnieśli bezpośredni wkład do artykułu lub zatwierdzili jego treść i zatwierdzili go do publikacji.
GM działa jako konsultant dla Janssen Research and Development, LLC.
pozostali autorzy oświadczają, że badanie zostało przeprowadzone przy braku jakichkolwiek relacji handlowych lub finansowych, które mogłyby być interpretowane jako potencjalny konflikt interesów.,
podziękowania
Dziękujemy Sander Greenland i Rink Hoekstra za komentarze i dyskusje. MG potwierdza wsparcie z VEGA 2/0047/15 grant. RvdS był wspierany przez grant holenderskiej organizacji badań naukowych: NWO-VIDI-45-14-006. Publikacja była wspierana finansowo przez grant 156294 Szwajcarskiej Narodowej Fundacji Nauki na rzecz VA.
Znaczenie badania wymaga taksonomii: lub jak Fisher, Neyman-Pearson kontrowersje doprowadziły do wnioskowania ogonem machanie psa pomiarowego. Psychol. REP. 119, 487-504, doi: 10.1177/0033294116662659
PubMed Abstract | CrossRef Full Text/Google Scholar
Briggs, W. M. (2016). Niepewność: dusza modelowania, prawdopodobieństwa i statystyki. Nowy Jork, NY: Springer.
Google Scholar
Ziemia jest okrągła (p < 0.05). Am. Psychol. 49, 997–1003.
Google Scholar
Metody statystyczne dla pracowników naukowych, 1. Edn. Oliver i Boyd.
, Projektowanie eksperymentów, 2nd Edn. Oliver i Boyd.
Metody statystyczne i wnioskowanie Naukowe, 3rd Edn.
Błąd i wzrost wiedzy eksperymentalnej. Chicago, IL: the University of Chicago Press.
Google Scholar
Redakcja. J. Exp. Psychol. 64, 553–557. doi: 10.1037/h0045549
CrossRef Pełny tekst
Open Science Collaboration (2015). Szacowanie powtarzalności nauk psychologicznych., Nauka 349: aac4716. podoba mi się! do obserwowanych nr: 101126aac4716
CrossRef Full Text
Poza istotnością statystyczną: kliniczna interpretacja literatury naukowej rehabilitacji. Int. J. Sport Phys. Ther. 9:72.
PubMed Abstract / Google Scholar
AERA editorial policies regarding statistical istotności testing: three suggested reforms. Educ. Res. 25, 26-30 doi: 10.2307/1176337
CrossRef Full Text/Google Scholar
Trafimow, D. (2017)., Wykorzystanie współczynnika pewności do filozoficznego przejścia z a posteriori do a priori wnioskującej statystyki. Educ. Psychol. Meas. 77, 831–854. doi: 10.1177/0013164416667977
CrossRef Full Text/Google Scholar