muitos pesquisadores criticaram a hipótese nula significance testing, though many have defended it too (see Balluerka et al., 2005, para uma revisão). Às vezes, recomenda-se que o nível alfa seja reduzido a um valor mais conservador, para baixar a taxa de erro do tipo I. Por exemplo, Melton (1962), o editor do Journal of Experimental Social Psychology de 1950-1962, favoreceu um nível alfa de 0,01 sobre o típico nível alfa de 0,05. Mais recentemente, Benjamin et al., (2018) recomendou a mudança para 0.005—consistente com o comentário de Melton que mesmo o nível 0,01 pode não ser “suficientemente impressionante” para justificar a publicação (P. 554). Além disso, Benjamin et al. (2018) estipulou que o nível de 0,005 Alfa deveria ser para novas descobertas, mas foram vagos sobre o que fazer com descobertas que não são novas. Embora não necessariamente endossando testes de significância como o procedimento estatístico inferencial preferido (muitos dos autores aparentemente favorecem procedimentos Bayesianos), Benjamin et al. (2018) argumentou que usando um 0.,O corte 005 corrigiria muito do que está errado com o teste de significância. Infelizmente, como demonstraremos, os problemas com testes de significância não podem ser mitigados, o que é importante, apenas por terem um critério de rejeição mais conservador, e alguns problemas são exacerbados pela adopção de um critério mais conservador.começamos com algumas reivindicações por parte de Benjamin et al. (2018). Por exemplo, eles escreveram ” … mudar o limiar de valor P é simples, alinha com a formação realizada por muitos pesquisadores, e pode rapidamente alcançar ampla aceitação.,”Se o teste de significância-em qualquer limiar de valor p—é tão falho quanto nós vamos Manter que é (ver também Amrhein et al., 2017; Groenlândia, 2017), estas razões são claramente insuficientes para justificar apenas a mudança do corte. Considere outra afirmação: “o novo limiar de significância ajudará pesquisadores e leitores a entender e comunicar as evidências com mais precisão.”Mas se os pesquisadores têm problemas de compreensão e comunicação com um limiar de 0,05, não é claro como o uso de um limiar de 0,005 irá eliminar esses problemas., E considere mais uma afirmação: “autores e leitores podem eles próprios tomar a iniciativa descrevendo e interpretando os resultados de forma mais adequada à luz da nova definição proposta de significado estatístico.”Mais uma vez, não está claro como a adoção de um limiar de 0,005 permitirá que autores e leitores tomem a iniciativa em relação a melhor interpretação de dados. Assim, mesmo antes de uma discussão de nossos principais argumentos, há razões para o leitor suspeitar de afirmações precipitadas sem suporte empírico.,
com o precedente fora do caminho, considere que um problema básico com testes de significância é que o objetivo é rejeitar uma hipótese nula. Este objetivo parece exigir-se se for Bayesiano-que a probabilidade posterior da hipótese nula seja baixa, dado o achado obtido. Mas o valor-p obtido é a probabilidade da descoberta, e de descobertas mais extremas, dado que a hipótese nula e todas as outras suposições sobre o modelo estavam corretas (Groenland et al.,, 2016; Groenlândia, 2017), e seria necessário fazer uma inferência inversa inválida para tirar uma conclusão sobre a probabilidade da hipótese nula dada a descoberta. E se alguém é freqüentista, não há maneira de ultrapassar a lacuna lógica da probabilidade da descoberta e de descobertas mais extremas, dada a hipótese nula, para uma decisão sobre se deve aceitar ou rejeitar a hipótese nula (Briggs, 2016; Trafimow, 2017). Aceitamos que, por lógica freqüente, a probabilidade de um erro de tipo I realmente é menor se usarmos um corte de 0,005 para p do que um corte de 0,05, sendo tudo o resto igual., Também aceitamos o argumento Bayesiano de Benjamin et al. (2018) que a hipótese nula é menos provável se p = 0.005 do que se p = 0.05, sendo todos os outros iguais. Finalmente, reconhecemos que Benjamin et al. (2018) prestou um serviço à ciência, estimulando ainda mais o debate sobre testes de significância. Mas há questões importantes Benjamin et al. (2018) parece não ter sido considerado, discutido nas secções seguintes.,
regressão e replicabilidade
Trafimow e Earp (2017) argumentaram contra a noção geral de definir um nível alfa para tomar decisões de rejeitar ou não rejeitar hipóteses nulas, e os argumentos mantêm a sua força, mesmo que o nível alfa seja reduzido para 0,005. De certa forma, a redução agrava as coisas. Um problema é que os valores de p têm variabilidade de amostragem, assim como outras estatísticas (Cumming, 2012)., Mas o valor-p é especial na medida em que é projetado para parecer ruído puro se a hipótese nula e todos os outros pressupostos modelo estão corretos, pois nesse caso o valor-p é uniformemente distribuído em (Groenlândia, 2018). Sob uma hipótese alternativa, sua distribuição é deslocada para baixo, com a probabilidade de p cair abaixo do corte escolhido sendo a potência do teste. Como o poder real dos estudos típicos não é muito elevado, quando a alternativa estiver correta, será em grande parte uma questão de sorte se o valor p amostrado está abaixo do nível alfa escolhido., Quando, como é frequentemente o caso, a potência é muito inferior a 50% (Smaldino e McElreath, 2016), é improvável que o pesquisador re-amostre um valor p abaixo de um limiar de significância após a replicação, pois pode haver muitos mais valores p acima do que abaixo do limiar na distribuição do valor p (Goodman, 1992; Senn, 2002; Halsey et al., 2015). Este problema piora à medida que o corte é reduzido, já que para uma amostra constante, a energia cai com o corte.,
mesmo que não se tenha usado um corte, o fenômeno da regressão à média sugere que o valor de p obtido em um experimento de replicação é provável que regresse a qualquer valor médio de p se muitas replicações fossem realizadas. Quanta regressão deve ocorrer? Quando a hipótese nula é incorreta, isso depende de como variável o ponto estima e, portanto, os valores p são.além disso, a variabilidade dos valores de p resulta numa fraca correlação entre as replicações., Com base nos dados colocados online pelo Open Science Colaboração (2015; https://osf.io/fgjvw), Trafimow e de Boer (submetido), calculado de uma correlação de apenas 0,004 entre os p-valores obtidos no original, o grupo de estudos com os valores de p obtidos na replicação de coorte, em comparação com o esperado de correlação igual a zero se todas as hipóteses nula e modelos utilizados para calcular os valores de p foram correctas (e, portanto, todos os valores de p foram distribuídos uniformemente).,
Existem várias razões possíveis para a baixa correlação, incluindo que a maioria das associações estudadas pode ter sido de fato quase nula, de modo que os valores p permaneceram principalmente uma função do ruído e, portanto, uma correlação quase nula deve ser esperada., Mas, mesmo se muitas ou a maioria das associações, estavam longe de ser nulo, assim deslocando o p-valores para baixo em direção a zero e a criação de uma correlação positiva sobre replicação, que a correlação permanecerá baixa, devido não só à grande erro aleatório no valor de p, mas também devido ao imperfeito a replicação da metodologia e a relação não-linear entre os valores de p e tamanhos de efeito (“corrigindo” a correlação para a atenuação devido à restrição de intervalo, no original, grupo de estudos, aumenta a correlação de 0,01, o que ainda é baixa)., Além disso, se a maioria das hipóteses nulas testadas eram falsas, a replicabilidade de baixo valor p evidenciada pela colaboração em Ciência Aberta poderia ser atribuída, em parte, ao viés de publicação causado por ter um critério de publicação baseado em valores p (Locascio, 2017a; Amrhein e Groenlândia, 2018)., Mas, se alguém deseja fazer tal atribuição, embora possa fornecer uma justificação para o uso de valores de p, em um hipotético universo científico, onde a p-valores a partir de falsos valores nulos são mais replicável por causa de uma falta de viés de publicação, a atribuição fornece ainda uma outra razão importante para evitar qualquer tipo de publicação, os critérios baseados em valores de ” p ” ou outros resultados estatísticos (Amrhein e a Gronelândia, a 2018).,
assim, o valor p obtido em um estudo original tem pouco a ver com o valor p obtido em um experimento de replicação (que é exatamente o que a teoria real dos valores p diz que deve ser o caso). A melhor previsão seria um valor p para o experimento de replicação sendo muito mais próximo da média da distribuição do valor p do que do valor p obtido no experimento original. Sob qualquer hipótese, quanto menor o valor p publicado no experimento original (por exemplo, 0,001 ao invés de 0.,01), quanto mais provável ela representa uma maior distância do valor-p da média do valor-p, implicando maior regressão à média.
tudo isso significa que as decisões Binárias, baseadas em valores p, sobre rejeição ou aceitação de hipóteses, sobre a força da evidência (Fisher, 1925, 1973), ou sobre a gravidade do teste (Mayo, 1996), serão decisões não confiáveis. Pode argumentar-se que esta é uma boa razão para não utilizar os valores p, ou pelo menos não os utilizar para tomar decisões sobre se deve ou não julgar as hipóteses científicas como sendo correctas (Amrhein et al., 2018).,
taxas de erro e níveis Alfa variáveis
outra desvantagem de usar qualquer nível alfa definido para publicação é que a importância relativa dos erros de tipo I e tipo II pode diferir entre estudos dentro ou entre áreas e pesquisadores (Trafimow e Earp, 2017). A definição de um nível geral de 0,05 ou 0,005, ou qualquer outra coisa, obriga os pesquisadores a fingir que a importância relativa dos erros de tipo I e tipo II é constante. Benjamin et al. (2018) TENTE justificar sua recomendação de reduzir para 0.,O nível 005, apontando algumas áreas da ciência que usam níveis alfa muito baixos, mas esta observação é igualmente consistente com a ideia de que um nível geral em toda a ciência é indesejável. E há boas razões pelas quais a variação entre campos e tópicos é de esperar: uma grande variedade de fatores pode influenciar a importância relativa dos erros de tipo I e tipo II, tornando assim qualquer recomendação geral indesejável. Estes fatores podem incluir a clareza da teoria, suposições auxiliares, preocupações práticas ou aplicadas, ou rigor experimental., Na verdade, Miller e Ulrich (2016) mostraram como estes e outros fatores têm uma influência direta no pagamento final da pesquisa. Há uma literatura impressionante que atesta as dificuldades em estabelecer uma recomendação de nível geral (por exemplo, Buhl-Mortensen, 1996; Lemons et al., 1997; Lemons and Victor, 2008; Lieberman and Cunningham, 2009; Myhr, 2010; Rice and Trafimow, 2010; Mudge et al., 2012; Lakens et al., 2018).
no entanto, nós não argumentamos que cada pesquisador deve começar a definir seu próprio nível alfa para cada estudo, como recomendado por Neyman e Pearson (1933) e Lakens et al., (2018), porque isso também tem problemas (Trafimow e Earp, 2017). Por exemplo, com limiares variáveis, muitos problemas antigos com testes de significância permanecem por resolver, tais como os problemas de regressão à média de valores-p, inflação de tamanhos de efeito (a “maldição do vencedor”, ver abaixo), relatórios seletivos e viés de publicação, e a desvantagem geral de forçar decisões muito rapidamente ao invés de considerar evidências cumulativas através de experimentos. Tendo em conta toda a incerteza em torno da inferência estatística (Gronelândia, 2017, 2018; Amrhein et al.,, 2018), temos fortes dúvidas de que poderíamos com sucesso “controlar” as taxas de erro se apenas justificássemos nosso nível alfa e outras decisões antes de um estudo, como Lakens et al. (2018) parecem sugerir em seu comentário a Benjamin et al. (2018). No entanto, Lakens et al. (2018) concluir que “o termo” estatisticamente significativo ” deve deixar de ser utilizado.”Nós concordamos, mas pensamos que testes de significância com um alfa justificado ainda é testes de significância, se o termo “significância” é usado ou não.,
dado que os níveis Alfa variáveis e de cobertor são problemáticos, é sensato não redefinir a significância estatística, mas dispensar o teste de significância completamente, como sugerido por McShane et al. (2018) e Amrhein e Gronelândia (2018), duas outras observações a Benjamin et al. (2018).
definindo replicabilidade
Mais uma desvantagem diz respeito ao que Benjamin et al. (2018) considerado como a principal vantagem de sua proposta, que os resultados publicados serão mais replicáveis usando o 0,005 do que o nível de 0,05 Alfa., Isto depende do que se entende por” replicado ” (veja Lykken, 1968, para algumas definições). Se alguém insiste no mesmo nível alfa para o estudo original e o estudo de replicação, então não vemos nenhuma razão para acreditar que haverá mais replicações bem sucedidas usando o nível 0.005 do que usando o nível 0.05. Na verdade, o argumento de regressão estatística feito anteriormente sugere que a questão da regressão é ainda pior usando 0,005 do que usando 0,05. Alternativamente, como Benjamin et al. (2018) parece sugerir que se pode usar 0, 005 para o estudo original e 0, 05 para o estudo de replicação., Neste caso, concordamos que a combinação de 0,005 e 0,05 irá criar menos replicações mal sucedidas do que a combinação de 0,05 e 0,05 para os estudos inicial e replicação, respectivamente. No entanto, isso vem a um preço elevado na arbitrariedade. Suponha que dois estudos vêm em p < 0,005 e p < 0.05, respectivamente. Isto contaria como uma replicação bem sucedida. Em contraste, suponha que os dois estudos vêm em p < 0,05 e p < 0.005, respectivamente., Apenas o segundo estudo contaria, e a combinação não se qualificaria como indicando uma replicação bem sucedida. Insistir que o corte de 0,005 torna a pesquisa mais replicável exigiria muito mais especificidade no que diz respeito a como conceitualizar a replicabilidade.
além disso, não vemos um único sucesso de replicação ou fracasso como definitivo. Se alguém deseja fazer um caso forte para sucesso de replicação ou falha, múltiplas tentativas de replicação são desejáveis. Como atestam os recentes estudos de replicação bem sucedidos em psicologia cognitiva (Zwaan et al.,, 2017) e Ciências Sociais (Mullinix et al., 2015), a qualidade da teoria e o grau em que os pressupostos do modelo são cumpridos influenciarão significativamente a replicabilidade.
questionando os pressupostos
a discussão até agora está sob o pretexto de que os pressupostos subjacentes à interpretação dos valores-p são verdadeiros. Mas quão provável é isto? Berk e Freedman (2003) argumentaram que as suposições de amostragem aleatória e independente de uma população raramente são verdadeiras., Os problemas são particularmente salientes nas ciências clínicas, onde a falsidade das suposições, bem como as divergências entre significância estatística e clínica, são particularmente óbvias e dramáticas (Bhardwaj et al., 2004; Ferrill et al., 2010; Fethney, 2010; Page, 2014). No entanto, os testes estatísticos não só testam hipóteses, mas também inúmeros pressupostos e todo o ambiente em que se realiza a investigação (Gronelândia, 2017, 2018; Amrhein et al., 2018)., O problema de possíveis suposições falsas, em combinação com os outros problemas já discutidos, torna ainda mais dramática a ilustração da verdade dos valores-p, ou de qualquer outro método estatístico.
o tamanho do efeito populacional
vamos continuar com as questões de significância e replicação, revertendo para a pretensão de que as suposições do modelo estão corretas, mantendo em mente que isso é improvável. Considere isso como as coisas agora estão usando testes de significado com o 0.,05 critério, o tamanho do efeito da população desempenha um papel importante tanto na obtenção de significância estatística (sendo tudo o resto igual, o tamanho do efeito da amostra será maior se o tamanho do efeito da população for maior) e na obtenção de significância estatística duas vezes para uma replicação bem sucedida. Mudar para o corte de 0.005 não diminuiria a importância do tamanho do efeito da população, e aumentaria sua importância a menos que o tamanho da amostra aumentasse substancialmente em relação aos atualmente utilizados. E há boas razões para rejeitar que a replicabilidade deve depender do tamanho do efeito populacional., Para ver isso rapidamente, considere um dos experimentos científicos mais importantes de todos os tempos, por Michelson e Morley (1887). Eles usaram seu interferômetro para testar se o universo está cheio de um éter luminífero que permite a luz viajar para a terra a partir das estrelas. Seu tamanho de efeito de amostra era muito pequeno, e os físicos aceitam que o tamanho do efeito de população é zero porque não há éter luminífero. Usando testes tradicionais de significância com 0,05 ou 0.,O corte de 005, replicando Michelson e Morley seria problemático (veja Sawilowsky, 2003, para uma discussão desta experiência no contexto do teste de hipóteses). No entanto, os físicos consideram a experiência altamente replicável (ver também Meehl, 1967). Qualquer proposta que apresente critérios de rejeição do valor-p força a probabilidade de replicação a ser impactada pelo tamanho do efeito da população, e assim deve ser rejeitada se aceitarmos a noção de que a replicabilidade não deve depender do tamanho do efeito da população.
além disso, com um nível alfa de 0.,005, grandes tamanhos de efeito seria mais importante para a publicação, e os pesquisadores podem inclinar-se muito mais para a pesquisa “óbvia” do que para testar ideias criativas onde há mais de um risco de pequenos efeitos e de valores p que não conseguem atender a barra de 0,005. Muito provavelmente, uma razão pela qual os resultados nulos são tão difíceis de publicar em ciências como a psicologia é porque a tradição de usar cortes de valor-p é tão enraizada. Seria benéfico acabar com esta tradição.,é desejável que os factos publicados em Literaturas científicas reflictam com precisão a realidade. Considere novamente a questão da regressão. Quanto mais rigoroso o nível de critério para a publicação, mais distância há de uma constatação que passa o critério para a média, e por isso há um efeito de regressão crescente. Mesmo no 0.,05 nível alfa, os pesquisadores têm reconhecido que a publicação de tamanhos de efeito provável que não refletem a realidade, ou pelo menos não a realidade de que poderia ser visto se havia muitas repetições de cada experimento e todos foram publicados (ver Briggs, 2016; Grice, 2017; Hyman, 2017; Kline, 2017; Locascio, 2017a,b; Marks, 2017 para uma recente discussão sobre este problema). Sob tamanhos razoáveis da amostra e tamanhos razoáveis do efeito da população, são os tamanhos anormalmente grandes do efeito da amostra que resultam em valores p que satisfazem o nível 0.05, ou o 0.,Nível 005, ou qualquer outro nível alfa, como é óbvio do ponto de vista da regressão estatística. E com tamanhos de amostra tipicamente baixos, efeitos estatisticamente significantes muitas vezes são sobrestimados de tamanhos de efeito populacional, que é chamado de “inflação do tamanho do efeito”, “inflação da Verdade” ou “maldição do vencedor” (Amrhein et al., 2017). A superestimação do tamanho do efeito foi empiricamente demonstrada na Open Science Collaboration (2015), onde o tamanho médio do efeito na coorte de replicação dos estudos foi drasticamente reduzido do tamanho médio do efeito na coorte original (de 0,403 para 0,197)., Mudar para um corte mais rigoroso de 0.005 resultaria em uma sobrestimação de efeito ainda pior (Button et al., 2013; Amrhein e Groenlândia, 2018). A importância de ter publicado tamanhos de efeito refletem com precisão os tamanhos de efeito da população contradiz a utilização de critérios de limiar e testes de significância, em qualquer nível alfa.
Dimensão da amostra e alternativas aos testes de significância
salientamos que a replicação depende em grande medida do tamanho da amostra, mas existem factores que interferem com os investigadores que utilizam os grandes tamanhos da amostra necessários para uma boa precisão e replicabilidade da amostragem., Para além dos custos óbvios da obtenção de grandes dimensões das amostras, pode haver uma desvalorização da dimensão da amostra (Vankov et al., 2014), da importância dos incentivos para favorecer a novidade sobre a replicabilidade (Nosek et al., 2012) and of a prevalent misconception that the complement of p-values measures replicability (Cohen, 1994; Thompson, 1996; Greenland et al., 2016). Um foco no tamanho da amostra sugere uma alternativa ao teste de significância., Trafimow (2017; Trafimow e MacDonald, 2017) sugeriu um procedimento como segue: a pesquisadora especifica quão perto ela deseja que as Estatísticas da amostra sejam seus correspondentes parâmetros populacionais, e a probabilidade desejada de estar tão perto. As equações de Trafimow podem ser usadas para obter o tamanho de amostra necessário para atender a esta especificação de proximidade., O pesquisador, em seguida, obtém o necessário, o tamanho da amostra, calcula-se a estatística descritiva, e leva-los como estimativas precisas dos parâmetros populacionais (provisoriamente em novos dados, é claro, uma ótima maneira de obter confiável estimativa é através de métodos robustos, ver Huber, 1972; Tukey, 1979; Rousseeuw, 1991; Portnoy e Ele, 2000; Erceg-Hurn et al., 2013; Field and Wilcox, 2017). Métodos similares existem há muito tempo em que o tamanho da amostra é baseado na largura máxima desejada para os intervalos de confiança.,este procedimento de proximidade sublinha (a) decidir o que é necessário para acreditar que as Estatísticas da amostra são boas estimativas dos parâmetros da população antes da recolha de dados e não depois, e (B) obter uma dimensão de amostra suficiente para ter a certeza de que as Estatísticas da amostra obtida estão realmente dentro das distâncias especificadas dos parâmetros da população correspondentes. O procedimento também não promove o viés de publicação porque não há um corte para as decisões de publicação., E o procedimento de proximidade não é o mesmo que a análise de poder tradicional: em primeiro lugar, o objetivo da análise de poder tradicional é encontrar o tamanho da amostra necessária para ter uma boa chance de obter um valor p estatisticamente significativo. Em segundo lugar, a análise de potência tradicional é fortemente influenciada pelo tamanho do efeito esperado, enquanto o procedimento de proximidade não é influenciado pelo tamanho do efeito esperado sob modelos normais (Gaussianos).
O ponto maior é que existem alternativas criativas para testes de significância que confrontam a questão do tamanho da amostra muito mais diretamente do que testes de significância faz., A” caixa de ferramentas estatísticas “(Gigerenzer e Marewski, 2015) inclui ainda, por exemplo, intervalos de confiança (que devem ser renomeados e usados como”intervalos de compatibilidade” —ver Amrhein et al., 2018; Gronelândia, 2018), testes de equivalência, valores p como medidas contínuas de refutação de provas contra um modelo (Gronelândia, 2018), rácios de probabilidade, métodos Bayesianos ou critérios de informação. E em situações de fabricação ou controle de qualidade, também as decisões Neyman-Pearson podem fazer sentido (Bradley e Brand, 2016).,
Mas, para a exploração científica, nenhuma dessas ferramentas deve se tornar o novo método mágico dando clara mecânica respostas (Cohen, 1994), porque cada critério de seleção irá ignorar a incerteza em favor do binário de tomada de decisão e, assim, produzir os mesmos problemas como os causados pelo teste de significância. O uso de um limiar para o fator Bayes, por exemplo, resultará em um dilema semelhante ao de um limiar para o valor p: Como Konijn et al. (2015) sugeriu, “Deus adoraria um fator Bayes de 3,01 quase tanto quanto um fator Bayes de 2,99.,”
finalmente, a inferência não deve ser baseada em estudos isolados (Neyman e Pearson, 1933; Fisher, 1937; Groenlândia, 2017), nem em replicações do mesmo laboratório, mas em evidências cumulativas de vários estudos independentes. É desejável obter estimativas precisas nesses estudos, mas um objetivo mais importante é eliminar o enviesamento de publicações, incluindo grandes intervalos de confiança e pequenos efeitos na literatura, sem os quais as evidências cumulativas serão distorcidas (Amrhein et al., 2017, 2018; Amrhein e Gronelândia, 2018)., Nesse sentido, Briggs (2016) defende o abandono da inferência baseada em parâmetros e a adoção de modelos de probabilidade puramente preditivos e, portanto, verificáveis, e a Groenlândia (2017) vê “uma necessidade terrível de se afastar das estatísticas inferenciais e se aproximar mais das descrições dos procedimentos de estudo, coleta de dados e os dados resultantes.”
conclusão
parece apropriado concluir com a questão básica que tem estado conosco desde o início., Os valores-p e os limiares do valor-p, ou qualquer outro instrumento estatístico, devem ser utilizados como critério principal para a tomada de decisões de publicação ou para a aceitação ou rejeição de hipóteses? O simples fato de que os pesquisadores estão preocupados com a replicação, no entanto ela é conceitualizada, indica uma apreciação de que os estudos individuais raramente são definitivos e raramente justificam uma decisão final., Ao avaliar a força das evidências, pesquisadores sofisticados consideram, de forma reconhecidamente subjetiva, considerações teóricas como escopo, amplitude explicativa e poder preditivo; o valor dos pressupostos auxiliares conectando termos não observacionais em teorias a termos observacionais em hipóteses empíricas; a força do design experimental; e implicações para aplicações. Resumir tudo isto a uma decisão binária baseada num limiar de valor-p de 0,05, 0,01, 0.005, ou qualquer outra coisa, não é aceitável.,
contribuições do autor
todos os autores listados fizeram uma contribuição direta para o papel ou endossa seu conteúdo, e aprovou-o para publicação.
Declaração de conflito de interesses
FK-N foi empregado pela Oikostat GmbH. GM tem atuado como consultor para Janssen Research and Development, LLC.os outros autores declaram que a pesquisa foi realizada na ausência de quaisquer relações comerciais ou financeiras que possam ser interpretadas como um potencial conflito de interesses.,
agradecimentos
Agradecemos Sander Greenland e Rink Hoekstra por comentários e discussões. A MG reconhece apoio da VEGA 2/0047/15 grant. A RvdS foi apoiada por uma subvenção da organização Neerlandesa de investigação científica: NWO-VIDI-45-14-006. A publicação foi financiada pelo subsídio 156294 da Fundação Nacional de Ciência Suíça para a VA.Bradley, M. T., and Brand, A. (2016). O teste de significância precisa de uma taxonomia: ou como a controvérsia de Fisher, Neyman-Pearson resultou na cauda inferencial abanando o cão de medição. Psychol. Rep. 119, 487-504., doi: 10.1177 / 0033294116662659 PubMed Abstract | CrossRef Full Text/Google Scholar
Briggs, W. M. (2016). Incerteza: a alma da modelagem, Probabilidade e Estatística. New York, NY: Springer.
Google Scholar
Cohen, J. (1994). A terra é redonda (p < 0,05). Manha. Psychol. 49, 997–1003.
Google Scholar
Fisher, R. A. (1925). Statistical Methods for Research Workers, 1st Edn. Edinburgh: Oliver and Boyd.
Fisher, R. A. (1937)., The Design of Experiments, 2nd Edn. Edinburgh: Oliver and Boyd.
Fisher, R. A. (1973). Statistical Methods and Scientific Inference, 3rd Edn. London: Macmillan.
Mayo, D. (1996). Erro e crescimento do conhecimento Experimental. Chicago, IL: the University of Chicago Press.
Google Scholar
Melton, A. (1962). Editorial. J. Exp. Psychol. 64, 553–557. doi: 10.1037 / h0045549
CrossRef texto completo
Open Science Collaboration (2015). Estimando a reprodutibilidade da ciência psicológica., Science 349: aac4716. doi: 10.1126 / science.Aac4716
CrossRef texto completo
Page, P. (2014). Beyond statistical significance: Clinical interpretation of rehabilitation research literature. T. J. Sports Phys. Ther. 9:72.
PubMed Abstract/Google Scholar
Thompson, B. (1996). AERA editorial policies regarding statistical significance testing: three suggested reforms. Educ. Res. 25, 26-30. doi: 10.2307 / 1176337
CrossRef Full Text/Google Scholar
Trafimow, D. (2017)., Usando o coeficiente de confiança para fazer a mudança filosófica de a posteriori para a estatística inferencial a priori. Educ. Psychol. MEA. 77, 831–854. doi: 10.1177/0013164416667977
CrossRef Texto Completo | Google Scholar