多くの研究者は帰無仮説有意性検定を批判していますが、多くの研究者はそれを擁護しています(Balluerka et al.,2005,レビューのために). 場合によっては、タイプIの誤り率を下げるために、アルファレベルをより控えめな値に減らすことが推奨されます。 たとえば、Melton(1962)、1950年から1962年のJournal of Experimental Social Psychologyの編集者は、典型的な0.01アルファレベルよりも0.05のアルファレベルを支持しました。 より最近では、Benjamin et al., (2018)は0.005へのシフトを推奨しています—メルトンのコメントと一致して、0.01レベルでさえ出版を保証するのに”十分に印象的”ではないかもしれない(p.554)。 さらに、Benjamin et al. (2018)は、0.005アルファレベルは新しい発見のためであるべきであるが、新しくない発見をどうするかについてはあいまいであると規定した。 有意性検定を優先する推論統計手順として必ずしも支持しているわけではありませんが(著者の多くは明らかにベイズ手順を支持している)、Benjamin et al. (2018)は、0を使用すると主張しました。,005カットオフは、有意性検定の間違っていることの多くを修正します。 残念ながら、我々が示すように、有意性検定の問題は、より保守的な拒絶基準を持つだけでは重要なことに緩和することはできず、いくつかの問題は、より保守的な基準を採用することによって悪化する。
私たちはBenjamin et al.の一部の主張を開始します。 (2018). 例えば、彼らは”…P値のしきい値を変更することは簡単であり、多くの研究者が行った訓練と一致し、迅速に広範な受け入れを達成するかもしれない。,”有意性検定(任意のp値しきい値において)が、それを維持するのと同じくらいひどく欠陥がある場合(Amrhein et al.,2017;Greenland,2017)、これらの理由は、単にカットオフを変更することを正当化するには明らかに不十分です。 別の主張を考えてみましょう:”新しい有意性閾値は、研究者と読者が証拠をより正確に理解し、伝達するのに役立ちます。”だ研究者の理解とコミュニケーション問題と0.05閾値があるのかどうかは不明であり方を0.005閾値を排除します。, そして、さらに別の主張を考えてみましょう:”著者と読者自身が統計的有意性の新しい提案された定義に照らして、より適切に結果を記述し、解釈する”、などを採用し0.005閾値を著者と読者の主導に関してより良いデータの解釈。 したがって、私たちの主な議論の議論の前でさえ、読者が経験的な支持を持たない急いで主張を疑う理由があります。,
前述のように、有意性検定の基本的な問題は、帰無仮説を棄却することを目標とすることであると考えてください。 この目標は、得られた発見を考えると、帰無仮説の事後確率は低くなければならないということを—ベイズの場合—要求しているようです。 しかし、得られるp値は、帰無仮説とモデルに関する他のすべての仮定が正しかったことを考えると、発見の確率、およびより極端な発見の確率です(Greenland et al.,、2016;Greenland、2017)、そして、発見が与えられた帰無仮説の確率についての結論を引き出すために無効な逆推論を行う必要があるでしょう。 そして、頻度論者であれば、帰無仮説を考えると、発見の確率とより極端な発見の確率から、帰無仮説を受け入れるか拒否するかについての決定までの 頻度論理によって、pに0.005カットオフを使用すると、タイプIエラーの確率は実際には0.05カットオフよりも低くなり、他のすべてが等しくなります。, また,Benjaminらによるベイズ論も受け入れた。 (2018)帰無仮説は、p=0.005の場合よりもp=0.05の場合よりも可能性が低く、それ以外はすべて等しいということです。 最後に、Benjamin et al. (2018年まで提供するサービスのための科学をさらに刺激的な議論の意義。 しかし、重要な問題がありますBenjamin et al. (2018)は考慮していないようであり、以下のセクションで議論されている。,
回帰と複製可能性
Trafimow and Earp(2017)は、帰無仮説を棄却するか否かの決定を下すためにアルファレベルを設定するという一般的な概念に対して主張し、アルファレベルが0.005に減少しても議論は力を保持する。 いくつかの点で、削減は問題を悪化させる。 一つの問題は、p値が他の統計と同様にサンプリング変動性を持つことです(Cumming、2012)。, しかし、p値は、帰無仮説と他のすべてのモデルの仮定が正しい場合、純粋なノイズのように見えるように設計されているという点で特別です(Greenland、2018)。 対立仮説の下では、その分布は下方にシフトされ、pが選択されたカットオフよりも下に落ちる確率は検定の検出力です。 典型的な研究の実際のパワーはそれほど高くないので、代替が正しい場合、サンプリングされたp値が選択されたアルファレベルよりも低いかどうかは、主に運の問題になります。, しばしばそうであるように、電力が50%をはるかに下回る場合(SmaldinoおよびMcElreath、2016)、研究者は、p値分布において閾値を下回るよりも多くのp値が存在する可能性があるため、複製時に有意閾値を下回るp値を再サンプリングすることはほとんどない(Goodman、1992;Senn、2002;Halsey et al., 2015). この問題は、一定のサンプルサイズの場合、カットオフと共に電力が低下するため、カットオフが低下するにつれて悪化します。,
カットオフを使用しなかったとしても、平均への回帰の現象は、複製実験で得られたp値が、多くの複製が行われた場合、平均p値がどのようなものであっても退行する可能性があることを示唆している。 どのくらいの回帰が起こるべきか? 帰無仮説が間違っている場合、それはポイントの推定値とp値がどのように変数であるかによって異なります。
さらに、p値の変動性は、複製全体の相関が悪くなります。, Open Science Collaboration(2015;https://osf.io/fgjvw)によってオンラインで公開されたデータに基づいて、Trafimowとde Boer(submitted)は、p値を計算するために使用されるすべての帰無仮説とモデルが正しい(したがって、すべてのp値が一様に分布していた)場合の予想されるゼロの相関と比較して、元のコホートで得られたp値と複製コホートで得られたp値との間にわずか0.004の相関を計算した。,
低い相関の理由はいくつか考えられるが、研究された関連のほとんどが実際にはほぼヌルであった可能性があるため、p値は主にノイズの関数であり、したがってほぼゼロの相関が期待されるべきである。, しかし、たとえ多くまたはほとんどの関連がヌルから遠く離れていて、p値をゼロに向かって下にシフトし、複製に正の相関を作り出したとしても、p値の大きなランダム誤差だけでなく、不完全な複製方法とp値と効果サイズの間の非線形関係により、その相関は低いままである(元の研究のコホートでは、範囲の制限による減衰の相関を”修正”すると、相関は0.01に増加し、これは依然として低い)。, また、検定された帰無仮説のほとんどが偽であった場合、オープンサイエンスのコラボレーションによって証明されるような低いp値の複製可能性は、p値に基づく出版基準を持つことによって引き起こされる出版バイアスに部分的に起因する可能性がある(Locascio,2017a;Amrhein and Greenland,2018)。, しかし、そのような帰属を行いたい場合は、偽のnullからのp値が出版バイアスの欠如のためにより複製可能であるという仮説的な科学宇宙においてp値を使用する正当化を提供するかもしれないが、帰属は、p値または他の統計結果に基づくあらゆる種類の出版基準を避けるためのさらに別の重要な理由を提供する(Amrhein and Greenland,2018)。,
したがって、元の研究で得られたp値は、複製実験で得られたp値とはほとんど関係がありません(これは、p値の実際の理論が言うことです)。 最良の予測は、複製実験のp値が、元の実験で得られたp値よりもp値分布の平均に非常に近いことであろう。 いずれの仮説でも、元の実験で発表されたp値が低いほど(例えば、0.001ではなく0。,01)、p値平均からp値のより大きな距離を表す可能性が高くなり、平均への回帰が増加することを意味します。
これはすべて、p値、仮説の拒絶または受け入れ、証拠の強さ(Fisher、1925、1973)、またはテストの重大度(Mayo、1996)に基づく二項決定が信頼できない決定であることを意 これは、p値をまったく使用しない、あるいは少なくとも科学的仮説が正しいと判断するかどうかの決定を下すためにそれらを使用しない正当な理, 2018).,
誤り率と可変アルファレベル
公表のために任意の設定アルファレベルを使用することのもう一つの欠点は、タイプIおよびタイプIIの誤りの相対的重importanceが分野および研究者の間で研究によって異なる可能性があることである(Trafimow and Earp、2017)。 ブランケットレベルを0.05または0.005、またはその他のいずれかに設定すると、研究者はタイプIおよびタイプIIエラーの相対的重importanceが一定である Benjamin et al. (2018)0に減らすために彼らの勧告を正当化しようとします。,005非常に低いアルファレベルを使用する科学のいくつかの分野を指摘することによってレベルが、この観察は、科学全体のブランケットレベルが望ま さまざまな要因がタイプIおよびタイプIIエラーの相対的重importanceに影響を与える可能性があり、それによってブランケット推奨が望ましくないものになります。 これらの要因には、理論の明快さ、補助的な仮定、実用的または適用された懸念、または実験的厳密さが含まれる可能性があります。, 確かに、MillerとUlrich(2016)は、これらの要因やその他の要因が最終的な研究ペイオフにどのように直接関わっているかを示しました。 ブランケットレベルの勧告を設定することの困難さを証明する印象的な文献がある(例えば、Buhl-Mortensen、1996;Lemons et al.,1997;Lemons and Victor,2008;Lieberman and Cunningham,2009;Myhr,2010;Rice and Trafimow,2010;Mudge et al.,2012;Lakens et al., 2018).しかし、Neyman and Pearson(1933)とLakens et alが推奨しているように、すべての研究者が各研究に独自のアルファレベルを設定すべきであると主張するわけではありません。, (2018)、それにも問題があるため(Trafimow and Earp、2017)。 例えば、しきい値が可変である場合、有意性検定に関する多くの古い問題は、p値の平均への回帰、効果サイズのインフレーション(以下”勝者の呪い”参照)、選択的な報告と出版バイアス、および実験全体の累積的証拠を考慮するのではなく、あまりにも迅速に決定を強制する一般的な欠点など、未解決のままである。 統計的推論を取り巻くすべての不確実性を考慮して(Greenland、2017、2018;Amrhein et al.,、2018)、Lakensらのように、研究の前にアルファレベルやその他の決定を正当化するだけであれば、誤り率を”制御”することができることを強く疑っています。 (2018)はBenjamin et al.への彼らのコメントで示唆しているようである。 (2018). それにもかかわらず、Lakens et al. (2018)は、””統計的に有意な”という用語はもはや使用されるべきではないと結論づけている。”私たちは同意しますが、正当化されたアルファによる有意性検定は、”有意性”という用語が使用されているかどうかにかかわらず、依然として有意性検,
ブランケットレベルと可変アルファレベルの両方が問題であることを考えると、McShane et alによって示唆されているように、統計的有意性を再定義するのではなく、有意性検定を完全に省略することが賢明である。 (2018)とAmrhein and Greenland(2018)、Benjamin et al. (2018).
複製可能性の定義
さらに別の欠点は、Benjamin et al. (2018)彼らの提案の主な利点として、公開された調査結果は0.005を使用して0.05アルファレベルよりも複製可能になると宣伝されました。, これは、”複製”が何を意味するかに依存します(いくつかの定義についてはLykken、1968を参照)。 元の研究と複製研究で同じアルファレベルを主張する場合、0.005レベルを使用するよりも0.05レベルを使用する方が成功すると信じる理由はあり 実際、以前に行った統計的回帰の議論は、0.005を使用すると0.05を使用するよりも回帰問題がさらに悪化することを示唆しています。 あるいは、Benjamin et al. (2018)は、元の研究には0.005、複製研究には0.05を使用することができることを示唆しているようです。, このケースでは、0.005と0.05の組み合わせは、それぞれ、初期および複製研究のための0.05と0.05の組み合わせよりも少ない失敗した複製を作成するこ しかし、これは恣意性において高い価格で来る。 二つの研究がp<0.005とp<0.05でそれぞれ入ってくるとします。 これは成功した複製としてカウントされます。 対照的に、二つの研究がそれぞれp<0.05およびp<0.005であると仮定します。, 第二の研究のみがカウントされ、組み合わせは成功した複製を示すものとして資格がないでしょう。 0.005のカットオフを設定すると、研究がより複製可能になると主張すると、複製可能性を概念化する方法に関してはるかに特異性が必要になります。
さらに、単一の複製の成功または失敗が決定的であるとは見なされません。 複製の成功または失敗のために強力なケースを作りたい場合は、複数の複製の試みが望ましい。 認知心理学における最近の成功した複製研究によって証明されているように(Zwaan et al.,,2017)および社会科学(Mullinix et al.,2015)、理論の質とモデルの仮定が満たされる程度は、重要なことに複製可能性に影響を与えるでしょう。
仮定に疑問を呈する
これまでの議論は、p値の解釈の基礎となる仮定が真実であるという偽りの下にある。 がいかがでしょうか。 Berk and Freedman(2003)は、母集団からのランダムで独立したサンプリングの仮定はめったに真実ではないという強いケースを作った。, この問題は、仮定の虚偽、ならびに統計的意義と臨床的意義との間の相違が特に明白かつ劇的である臨床科学において特に顕著である(Bhardwaj et al.,2004;Ferrill et al.,2010;フェスニー,2010;ページ,2014). しかしながら、統計的検定は仮説を検定するだけでなく、無数の仮定と研究が行われる環境全体を検定する(Greenland、2017、2018;Amrhein et al., 2018)., おそらく誤った仮定の問題は、すでに議論されている他の問題と組み合わせて、p値または他の統計的方法からの真実の幻想的な蓄積を、さらに劇的
母集団効果サイズ
これはありそうもないことを念頭に置きながら、モデルの仮定が正しいというふりをして、重要性と複製の問題を続け 問題は今0で有意性のテストを使用して立っていると考えてください。,05基準では、母集団効果サイズは、統計的有意性を得る(他のすべてが等しい、母集団効果サイズが大きい場合、標本効果サイズが大きくなる)と、成功した複 0.005カットオフに切り替えると、母集団効果サイズの重要性は低下せず、サンプルサイズが現在使用されているサイズから大幅に増加しない限り、そ そして、複製可能性が母集団の効果サイズに依存するべきであることを拒否する正当な理由があります。, これをすばやく見るには、Michelson and Morley(1887)による、すべての時間の中で最も重要な科学実験の一つを考えてみましょう。 彼らは、宇宙が星から地球に光を移動させる発光エーテルで満たされているかどうかをテストするために干渉計を使用しました。 彼らのサンプル効果のサイズは非常に小さく、物理学者は発光エーテルがないため、母集団効果のサイズはゼロであると受け入れています。 0.05または0のいずれかで有意性の従来の検定を使用します。,005カットオフ、MichelsonとMorleyの複製は問題になるでしょう(仮説検定の文脈でのこの実験の議論についてはSawilowsky、2003を参照)。 しかし、物理学者はこの実験を非常に複製可能であると考えています(Meehl、1967も参照)。 P値除去基準を備えた提案は、複製確率を母集団の効果サイズによって影響させるため、複製可能性が母集団の効果サイズに依存してはならないという考えを受け入れるならば、拒絶されなければならない。
さらに、アルファレベルは0です。,005、大きな効果のサイズは出版のためにより重要であり、研究者は小さな効果と0.005バーを満たすことができないp値のリスクがより多くある創造的なアイデアをテストするよりも、”明らかな”研究に向かってはるかに傾くかもしれない。 おそらく、ヌルの結果が心理学などの科学で公開するのが非常に難しい理由は、p値カットオフを使用する伝統が非常に根付いているためです。 この伝統を終わらせることは有益であろう。,
公表された効果サイズの正確さ
科学文献に掲載された事実が現実を正確に反映することが望ましい。 回帰の問題を再度考えてみましょう。 公開の基準レベルが厳しいほど、基準を通過する所見から平均までの距離が長くなるため、回帰効果が増加します。 でも0で。,05アルファレベルでは、研究者は、公表された効果の大きさが現実を反映していない可能性が高いこと、または少なくとも各実験の多くの複製があり、すべてが公開された場合に見られる現実を反映していない可能性が高いことを長い間認識してきた(この問題についての最近の議論については、Briggs、2016;Grice、2017;Hyman、2017;Kline、2017;Locascio、2017a、b;Marks、2017を参照)。 適切なサンプルサイズと適切な母集団効果サイズの下では、異常に大きなサンプル効果サイズが、0.05レベルまたは0を満たすp値になります。,005レベル、またはその他のアルファレベルは、統計回帰の観点から明らかです。 そして、典型的には低いサンプルサイズでは、統計的に有意な効果は、しばしば”効果サイズのインフレ”、”真実のインフレ”、または”勝者の呪い”と呼ばれる母, 2017). 効果サイズの過大評価はOpen Science Collaboration(2015)で経験的に実証され、研究の複製コホートの平均効果サイズは元のコホートの平均効果サイズから劇的に減少した(0.403から0.197)。, より厳しい0.005カットオフに変更すると、効果サイズの過大評価がさらに悪化する(Button et al.,2013;Amrhein and Greenland,2018). 公開された効果サイズが母集団の効果サイズを正確に反映することの重要性は、任意のアルファレベルでのしきい値基準および有意性検定の使用
サンプルサイズと有意性テストの代替
我々は、レプリケーションは、サンプルサイズに大きく依存することを強調しますが、良いサンプリング精度, 大きなサンプルサイズを得るための明白なコストに加えて、どのくらいのサンプルサイズが重要であるかの過小評価があるかもしれない(Vankov et al.,2014)、複製可能性よりも新規性を優先するインセンティブの重要性について(Nosek et al.、2012)およびp値の補数が複製可能性を測定するという一般的な誤解の(Cohen、1994;Thompson、1996;Greenland et al., 2016). 標本サイズに焦点を当てると、有意性検定の代替案が提案されます。, Trafimow(2017;Trafimow and MacDonald、2017)は、次のような手順を提案しました:研究者は、サンプル統計が対応する母集団パラメータにどれだけ近いか、およびその近い確率を指定し Trafimowの方程式は、この近さの仕様を満たすために必要なサンプルサイズを得るために使用することができます。, 研究者は、必要なサンプルサイズを取得し、記述統計量を計算し、人口パラメータの正確な推定値としてそれらを取る(もちろん、新しいデータについては暫定的に、信頼できる推定を得るための最適な方法は、Huber、1972;Tukey、1979;Rousseeuw、1991;Portnoy and He、2000;Erceg-Hurn et al.,2013;フィールドとウィルコックス,2017). サンプルサイズが信頼区間の所望の最大幅に基づいている同様の方法が長い間存在していました。,
この近接手順では、(a)サンプル統計がデータ収集前ではなく、その後の母集団パラメータの良好な推定値であると信じるために必要なものを決定し、(b)得られたサンプル統計が実際に対応する母集団パラメータの指定された距離内にあることを確信するのに十分な大きさのサンプルサイズを得ることを強調する。 また、出版決定のためのカットオフがないため、この手順は出版バイアスを促進しません。, まず、従来の検出力分析の目標は、統計的に有意なp値を得る可能性が高いために必要なサンプルサイズを見つけることです。 次に,従来のパワー解析は期待効果サイズに強く影響されるのに対し,近接手順は通常(Gauss)モデルの下では期待効果サイズに影響されない。
大きな点は、有意性検定よりもはるかに直接的にサンプルサイズの問題に直面する有意性検定の創造的な代替手段があるということです。, “統計ツールボックス”(Gigerenzer and Marewski,2015)には、信頼区間(むしろ名前を変更して”互換性区間”として使用する必要があります—Amrhein et al.、2018;Greenland、2018)、同値検定、モデルに対する反論の証拠の連続尺度としてのp値(Greenland、2018)、尤度比、ベイズ法、または情報基準。 また、製造または品質管理の状況では、Neyman-Pearsonの決定も意味をなさないことがあります(Bradley and Brand、2016)。,
しかし、科学的探査のために、これらのツールのいずれも、明確な機械的な答えを与える新しい魔法の方法になるべきではありません(Cohen、1994)、すべての選択基準は、バイナリの意思決定に有利な不確実性を無視し、したがって有意性検定によって引き起こされる問題と同じ問題を生成するためです。 例えば、ベイズ因子に対する閾値を使用することは、p値に対する閾値の場合と同様のジレンマをもたらす:Konijn et al. (2015)は、”神は3.01のベイズ因子を2.99のベイズ因子とほぼ同じくらい愛しているだろう。,最後に、推論は単一の研究(Neyman and Pearson、1933;Fisher、1937;Greenland、2017)、同じ研究室からの複製に基づくべきではなく、複数の独立した研究からの累積的証拠に基づくべきである。 これらの研究では正確な推定値を得ることが望ましいが、より重要な目標は、文献に広い信頼区間と小さな効果を含めることによって出版バイアス,2017,2018;アムラインとグリーンランド,2018)., これらの線に沿って、Briggs(2016)は、パラメータベースの推論を放棄し、純粋に予測、したがって検証可能な確率モデルを採用することを主張し、Greenland(2017)は”推論統計から離れ、研究手順、データ収集、および結果のデータの記述により密接に取り組む必要がある”と見ている。”
結論
最初から私たちと一緒にいた基本的な問題で結論づけることが適切です。, P値とp値のしきい値、またはその他の統計ツールは、出版の決定、または仮説の受け入れまたは拒否の決定を行うための主要な基準として使用される 研究者が複製に関わっているという単なる事実は、概念化されているが、単一の研究が決定的ではなく、最終決定を正当化することはめったにないという感謝を示している。, エビデンスの強さを評価するとき、洗練された研究者は、範囲、説明的な幅、予測力などの理論的考察、理論の非観測的な用語と経験的仮説の観測的な用語を結びつける補助的仮定の価値、実験設計の強さ、応用への影響を明らかに主観的な方法で考慮する。 このすべてを、0.05、0.01、0.005などのp値のしきい値に基づくバイナリ決定にまで煮詰めることは受け入れられません。,
著者寄稿
リストされているすべての著者は、論文への直接寄稿を行ったり、その内容を支持し、出版のためにそれを承認しました。
利益相反声明
FK-NはOikostat GmbHによって採用されました。 GMはJanssen Research and Development,LLCのコンサルタントとして活動しています。
他の著者は、この研究は、潜在的な利益相反と解釈され得る商業的または財政的関係がない場合に行われたと宣言している。,
謝辞
私たちは、コメントや議論のためのサンダーグリーンランドとリンクHoekstraに感謝します。 MGはベガ2/0047/15グラントからのサポートを認めます。 RvdSは、オランダ科学研究機関からの助成金によってサポートされました:NWO-VIDI-45-14-006—– 出版は、スイス国立科学財団からVAへの助成金156294によって財政的に支援されました。
Bradley,M.T.,And Brand,A.(2016). 有意性検定には分類法が必要です:またはFisher、Neyman-Pearson論争が測定犬を振る推論の尾をどのようにもたらしたか。 サイコー 119番487-504番, doi:10.1177/0033294116662659
PubMed Abstract|CrossRef Full Text|Google Scholar
Briggs,W.M.(2016). 不確実性:モデリング、確率、統計の魂。 ニューヨーク、ニューヨーク:Springer。
Google Scholar
Cohen,J.(1994). 地球は丸いです(p<0.05)。 アム サイコー 49, 997–1003.
Google Scholar
フィッシャー、R.A.(1925)。 研究労働者のための統計的方法、第1Edn。 エディンバラ:オリバーとボイド。
Fisher,R.A.(1937)., 実験のデザイン、第2Edn。 エディンバラ:オリバーとボイド。
Fisher,R.A.(1973). 統計的手法と科学的推論、第3回Edn。 ロンドン:マクミラン。
Mayo,D.(1996). エラーと実験的知識の成長。 シカゴ、イリノイ州:シカゴ大学出版局。
Google Scholar
Melton,A.(1962). エディトリアル ジェイエスエックス サイコー 64, 553–557. doi:10.1037/h0045549
CrossRef Full Text
オープンサイエンスコラボレーション(2015). 心理科学の再現性を推定する。, 科学349:aac4716. 土井:10.1126/科学.aac4716
CrossRefフルテキスト
ページ,P.(2014). 統計的意義を超えて:リハビリテーション研究文献の臨床解釈。 イント J.スポーツフィーズ所属。 テール 9:72.
PubMed Abstract|Google Scholar
Thompson,B.(1996). 統計的有意性検定に関するAERA編集方針:三つの提案された改革。 エデュケート 第25号、第26号、第30号。 doi:10.2307/1176337
CrossRefフルテキスト|Google Scholar
Trafimow、D.(2017)。, 事後推論統計から先験的推論統計への哲学的切り替えを行うために信頼係数を使用する。 エデュケート サイコー ミース 77, 831–854. doi:10.1177/0013164416667977
CrossRefフルテキスト|Google Scholar