Welcome to Our Website

Frontiers in Psychology (Italiano)

Molti ricercatori hanno criticato il test di significatività dell’ipotesi nulla, anche se molti lo hanno difeso (vedi Balluerka et al., 2005, per una revisione). A volte, si consiglia di ridurre il livello alfa a un valore più conservativo, per ridurre il tasso di errore di tipo I. Ad esempio, Melton (1962), l’editore del Journal of Experimental Social Psychology dal 1950 al 1962, favorì un livello alfa di 0,01 rispetto al tipico livello alfa di 0,05. Più recentemente, Benjamin et al., (2018) raccomandato lo spostamento a 0.005—coerente con il commento di Melton secondo cui anche il livello 0.01 potrebbe non essere “sufficientemente impressionante” da giustificare la pubblicazione (p. 554). Inoltre, Benjamin et al. (2018) ha stabilito che il livello alfa 0.005 dovrebbe essere per nuove scoperte, ma erano vaghi su cosa fare con risultati che non sono nuovi. Sebbene non approvi necessariamente il test di significatività come procedura statistica inferenziale preferita (molti degli autori apparentemente favoriscono le procedure bayesiane), Benjamin et al. (2018) ha sostenuto che l’utilizzo di un 0.,005 cutoff risolverebbe molto di ciò che è sbagliato con il test di significatività. Sfortunatamente, come dimostreremo, i problemi con i test di significatività non possono essere attenuati in modo importante semplicemente avendo un criterio di rifiuto più conservativo, e alcuni problemi sono esacerbati adottando un criterio più conservativo.

Iniziamo con alcune affermazioni da parte di Benjamin et al. (2018). Ad esempio, hanno scritto “changing cambiare la soglia del valore P è semplice, si allinea con la formazione intrapresa da molti ricercatori e potrebbe rapidamente ottenere un’ampia accettazione.,”Se il test di significatività-a qualsiasi soglia di valore p-è così difettoso come lo manterremo (vedi anche Amrhein et al., 2017; Groenlandia, 2017), queste ragioni sono chiaramente insufficienti per giustificare la semplice modifica del cutoff. Considera un’altra affermazione: “La nuova soglia di significatività aiuterà ricercatori e lettori a comprendere e comunicare le prove in modo più accurato.”Ma se i ricercatori hanno problemi di comprensione e comunicazione con una soglia 0.05, non è chiaro come l’utilizzo di una soglia 0.005 eliminerà questi problemi., E considera ancora un’altra affermazione: “Gli autori e i lettori possono essi stessi prendere l’iniziativa descrivendo e interpretando i risultati in modo più appropriato alla luce della nuova definizione proposta di significatività statistica.”Ancora una volta, non è chiaro come l’adozione di una soglia 0.005 consentirà agli autori e ai lettori di prendere l’iniziativa rispetto a una migliore interpretazione dei dati. Quindi, anche prima di una discussione dei nostri argomenti principali, c’è motivo per il lettore di essere sospettoso di affermazioni affrettate senza alcun supporto empirico.,

Con quanto sopra, considera che un problema di base con i test di significato è che l’obiettivo è rifiutare un’ipotesi nulla. Questo obiettivo sembra richiedere-se uno è un bayesiano-che la probabilità posteriore dell’ipotesi nulla dovrebbe essere bassa dato il risultato ottenuto. Ma il valore p che si ottiene è la probabilità del ritrovamento, e di scoperte più estreme, dato che l’ipotesi nulla e tutte le altre ipotesi sul modello erano corrette (Groenlandia et al.,, 2016; Groenlandia, 2017), e si dovrebbe fare un’inferenza inversa non valida per trarre una conclusione sulla probabilità dell’ipotesi nulla data la scoperta. E se uno è un frequentista, non c’è modo di attraversare il divario logico dalla probabilità del ritrovamento e di scoperte più estreme, data l’ipotesi nulla, a una decisione sul fatto che si debba accettare o rifiutare l’ipotesi nulla (Briggs, 2016; Trafimow, 2017). Accettiamo che, per logica frequentista, la probabilità di un errore di tipo I sia davvero inferiore se usiamo un cutoff 0.005 per p rispetto a un cutoff 0.05, tutto il resto è uguale., Accettiamo anche l’argomento bayesiano di Benjamin et al. (2018) che l’ipotesi nulla è meno probabile se p = 0,005 che se p = 0,05, tutto il resto è uguale. Infine, riconosciamo che Benjamin et al. (2018) ha fornito un servizio per la scienza stimolando ulteriormente il dibattito sui test di significatività. Ma ci sono questioni importanti Benjamin et al. (2018) sembra non aver preso in considerazione, discusso nelle sezioni seguenti.,

Regressione e replicabilità

Trafimow e Earp (2017) hanno discusso contro la nozione generale di impostare un livello alfa per prendere decisioni per rifiutare o non rifiutare ipotesi nulle, e gli argomenti mantengono la loro forza anche se il livello alfa è ridotto a 0.005. In qualche modo, la riduzione peggiora le cose. Un problema è che i valori p hanno variabilità di campionamento, così come altre statistiche (Cumming, 2012)., Ma il valore p è speciale in quanto è progettato per sembrare puro rumore se l’ipotesi nulla e tutte le altre ipotesi del modello sono corrette, poiché in tal caso il valore p è distribuito uniformemente su (Groenlandia, 2018). Secondo un’ipotesi alternativa, la sua distribuzione viene spostata verso il basso, con la probabilità che p scenda al di sotto del cutoff scelto come potenza del test. Poiché la potenza effettiva degli studi tipici non è molto elevata, quando l’alternativa è corretta sarà in gran parte una questione di fortuna se il valore p campionato è inferiore al livello alfa scelto., Quando, come spesso accade, la potenza è molto inferiore al 50% (Smaldino e McElreath, 2016), è improbabile che il ricercatore riprenda un valore p al di sotto di una soglia di significatività al momento della replica, poiché potrebbero esserci molti più valori p al di sopra della soglia nella distribuzione del valore p (Goodman, 1992; Senn, 2002; Halsey et al., 2015). Questo problema peggiora man mano che il cutoff viene abbassato, poiché per una dimensione del campione costante, la potenza diminuisce con il cutoff.,

Anche se non si utilizza un cutoff, il fenomeno della regressione alla media suggerisce che il valore p ottenuto in un esperimento di replica è probabile che regredisca a qualunque sia il valore p medio se fossero state eseguite molte repliche. Quanta regressione dovrebbe verificarsi? Quando l’ipotesi nulla non è corretta, ciò dipende da quanto variabili sono le stime puntuali e quindi i valori P.

Inoltre, la variabilità dei valori p comporta una scarsa correlazione tra le repliche., Basato su dati messi online dalla Scienza Aperta Collaborazione (2015; https://osf.io/fgjvw), Trafimow e de Boer (presentata) calcolato un coefficiente di correlazione di solo 0.004 tra p-valori ottenuti in originale coorte di studio con p-valori ottenuti nella replica di coorte, rispetto ad attese di correlazione pari a zero se tutte le ipotesi nulla e i modelli utilizzati per calcolare i valori di p sono stati corretti (e quindi tutti i valori di p sono stati uniformemente distribuito).,

Ci sono diverse possibili ragioni per la bassa correlazione, incluso il fatto che la maggior parte delle associazioni studiate potrebbe essere stata in realtà quasi nulla, in modo che i valori p rimanessero principalmente una funzione del rumore e quindi ci si dovrebbe aspettare una correlazione quasi zero., Ma anche se molti o la maggior parte delle associazioni sono state lontani da null, spostando così il p-valori verso il basso, verso lo zero e la creazione di una correlazione positiva su di replica, che la correlazione rimangono bassi, non solo per la grande errore casuale a valori di p, ma anche a causa della imperfetta replica metodologia e la relazione non lineare tra i valori di p e le dimensioni dell’effetto (“correggere” la correlazione per l’attenuazione dovuta alla restrizione della gamma, in originale coorte di studi, aumenta la correlazione a 0.01, che è ancora bassa)., Inoltre, se la maggior parte delle ipotesi nulle testate erano false, la bassa replicabilità del valore p come evidenziato dalla Collaborazione Open Science potrebbe essere attribuita, in parte, al pregiudizio di pubblicazione causato dall’avere un criterio di pubblicazione basato sui valori p (Locascio, 2017a; Amrhein and Greenland, 2018)., Ma se si desidera fare una tale attribuzione, sebbene possa fornire una giustificazione per l’utilizzo di valori p in un ipotetico universo scientifico in cui i valori p dei falsi null sono più replicabili a causa della mancanza di pregiudizi di pubblicazione, l’attribuzione fornisce un’altra ragione importante per evitare qualsiasi tipo di criterio di pubblicazione basato su valori p o altri risultati statistici (Amrhein e Groenlandia, 2018).,

Quindi, il valore p ottenuto in uno studio originale ha poco a che fare con il valore p ottenuto in un esperimento di replica (che è proprio quello che la teoria effettiva dei valori p dice dovrebbe essere il caso). La migliore previsione sarebbe un valore p per l’esperimento di replica che è molto più vicino alla media della distribuzione del valore p che al valore p ottenuto nell’esperimento originale. In ogni ipotesi, minore è il valore p pubblicato nell’esperimento originale (ad esempio, 0.001 anziché 0.,01), più è probabile che rappresenti una maggiore distanza del valore p dalla media del valore p, implicando una maggiore regressione alla media.

Tutto ciò significa che le decisioni binarie, basate su valori p, sul rifiuto o l’accettazione di ipotesi, sulla forza delle prove (Fisher, 1925, 1973), o sulla gravità del test (Mayo, 1996), saranno decisioni inaffidabili. Si potrebbe sostenere che questo sia un buon motivo per non usare affatto i valori p, o almeno non usarli per prendere decisioni sull’opportunità o meno di giudicare le ipotesi scientifiche come corrette (Amrhein et al., 2018).,

Tassi di errore e livelli alfa variabili

Un altro svantaggio dell’utilizzo di qualsiasi livello alfa impostato per la pubblicazione è che l’importanza relativa degli errori di tipo I e di tipo II potrebbe differire tra studi all’interno o tra aree e ricercatori (Trafimow e Earp, 2017). L’impostazione di un livello generale di 0,05 o 0,005, o qualsiasi altra cosa, costringe i ricercatori a fingere che l’importanza relativa degli errori di tipo I e di tipo II sia costante. Benjamin et al. (2018) cerca di giustificare la loro raccomandazione di ridurre a 0.,005 livello sottolineando alcune aree della scienza che utilizzano livelli alfa molto bassi, ma questa osservazione è altrettanto coerente con l’idea che un livello di coperta attraverso la scienza è indesiderabile. E ci sono buone ragioni per cui è prevedibile una variazione tra campi e argomenti: un’ampia varietà di fattori può influenzare l’importanza relativa degli errori di tipo I e di tipo II, rendendo quindi indesiderabile qualsiasi raccomandazione generale. Questi fattori possono includere la chiarezza della teoria, le ipotesi ausiliarie, le preoccupazioni pratiche o applicate o il rigore sperimentale., In effetti, Miller e Ulrich (2016) hanno mostrato come questi e altri fattori abbiano un impatto diretto sul profitto finale della ricerca. C’è una letteratura impressionante che attesta le difficoltà nel fissare una raccomandazione a livello generale (ad esempio, Buhl-Mortensen, 1996; Lemons et al., 1997; Limoni e Victor, 2008; Lieberman e Cunningham, 2009; Myhr, 2010; Riso e Trafimow, 2010; Mudge et al., 2012; Lakens et al., 2018).

Tuttavia, non sosteniamo che ogni ricercatore dovrebbe arrivare a impostare il proprio livello alfa per ogni studio, come raccomandato da Neyman e Pearson (1933) e Lakens et al., (2018), perché anche questo ha problemi (Trafimow e Earp, 2017). Ad esempio, con soglie variabili, molti vecchi problemi con i test di significatività rimangono irrisolti, come i problemi di regressione alla media dei valori p, l’inflazione delle dimensioni degli effetti (la “maledizione del vincitore”, vedi sotto), la segnalazione selettiva e il bias di pubblicazione e lo svantaggio generale di forzare le decisioni troppo rapidamente piuttosto che considerare le prove cumulative tra gli esperimenti. In considerazione di tutta l’incertezza che circonda l’inferenza statistica (Groenlandia, 2017, 2018; Amrhein et al.,, 2018), dubitiamo fortemente che potremmo “controllare” con successo i tassi di errore se solo giustificassimo il nostro livello alfa e altre decisioni prima di uno studio, come Lakens et al. (2018) sembrano suggerire nel loro commento a Benjamin et al. (2018). Tuttavia, Lakens et al. (2018) concludono che “il termine” statisticamente significativo ” non dovrebbe più essere usato.”Siamo d’accordo, ma pensiamo che il test di significatività con un alfa giustificato sia ancora un test di significatività, indipendentemente dal fatto che il termine” significatività” sia usato o meno.,

Dato che i livelli alfa coperta e variabile sono entrambi problematici, è ragionevole non ridefinire la significatività statistica, ma rinunciare del tutto al test di significatività, come suggerito da McShane et al. (2018) e Amrhein e Groenlandia (2018), altri due commenti a Benjamin et al. (2018).

Definizione della replicabilità

Un altro svantaggio riguarda ciò che Benjamin et al. (2018) propagandato come il principale vantaggio della loro proposta, che i risultati pubblicati saranno più replicabili usando il livello 0.005 rispetto al livello 0.05 alpha., Questo dipende da cosa si intende per “replicare” (vedi Lykken, 1968, per alcune definizioni). Se uno insiste sullo stesso livello alfa per lo studio originale e lo studio di replica, allora non vediamo alcun motivo per credere che ci saranno repliche più riuscite usando il livello 0.005 che usando il livello 0.05. In effetti, l’argomento di regressione statistica fatto in precedenza suggerisce che il problema di regressione è reso ancora peggiore usando 0.005 che usando 0.05. In alternativa, come Benjamin et al. (2018) sembra suggerire, si potrebbe usare 0.005 per lo studio originale e 0.05 per lo studio di replica., In questo caso, concordiamo sul fatto che la combinazione di 0,005 e 0,05 creerà meno repliche non riuscite rispetto alla combinazione di 0,05 e 0,05 per gli studi iniziali e di replica, rispettivamente. Tuttavia, questo ha un prezzo elevato nell’arbitrarietà. Supponiamo che due studi entrino in p < 0.005 e p < 0.05, rispettivamente. Questo conterebbe come una replica di successo. Al contrario, supponiamo che i due studi arrivino rispettivamente a p < 0.05 e p < 0.005., Solo il secondo studio conterebbe e la combinazione non si qualificherebbe come indicante una replica riuscita. Insistere sul fatto che l’impostazione di un limite di 0,005 renda la ricerca più replicabile richiederebbe molta più specificità rispetto a come concettualizzare la replicabilità.

Inoltre, non vediamo un singolo successo o errore di replica come definitivo. Se si desidera creare un caso valido per il successo o l’errore della replica, sono desiderabili più tentativi di replica. Come è attestato da recenti studi di replicazione di successo in psicologia cognitiva (Zwaan et al.,, 2017) e scienze sociali (Mullinix et al., 2015), la qualità della teoria e il grado in cui le ipotesi del modello sono soddisfatte influenzeranno in modo importante la replicabilità.

Mettere in discussione le ipotesi

La discussione finora è sotto la pretesa che le ipotesi alla base dell’interpretazione dei valori p siano vere. Ma quanto è probabile questo? Berk e Freedman (2003) hanno affermato che le ipotesi di campionamento casuale e indipendente da una popolazione sono raramente vere., I problemi sono particolarmente salienti nelle scienze cliniche, dove la falsità delle ipotesi, così come le divergenze tra significato statistico e clinico, sono particolarmente evidenti e drammatiche (Bhardwaj et al., 2004; Ferrill et al., 2010; Fethney, 2010; Pagina, 2014). Tuttavia, i test statistici non testano solo ipotesi ma innumerevoli ipotesi e l’intero ambiente in cui si svolge la ricerca (Groenlandia, 2017, 2018; Amrhein et al., 2018)., Il problema delle probabili false ipotesi, in combinazione con gli altri problemi già discussi, rende l’illusoria raccolta della verità dai valori p, o da qualsiasi altro metodo statistico, ancora più drammatico.

La dimensione dell’effetto popolazione

Continuiamo con i problemi di significatività e replica, tornando alla pretesa che le ipotesi del modello siano corrette, tenendo presente che ciò è improbabile. Considera che come le cose ora stanno usando test di significatività con lo 0.,05 criterio, la dimensione dell’effetto popolazione gioca un ruolo importante sia per ottenere significatività statistica (tutto il resto a parità, la dimensione dell’effetto campione sarà maggiore se la dimensione dell’effetto popolazione è maggiore) e per ottenere significatività statistica due volte per una replica di successo. Il passaggio al limite di 0,005 non diminuirebbe l’importanza della dimensione dell’effetto popolazione e aumenterebbe la sua importanza a meno che le dimensioni del campione non aumentino sostanzialmente rispetto a quelle attualmente utilizzate. E c’è una buona ragione per rifiutare che la replicabilità dovrebbe dipendere dalla dimensione dell’effetto della popolazione., Per vederlo rapidamente, considera uno dei più importanti esperimenti scientifici di tutti i tempi, di Michelson e Morley (1887). Hanno usato il loro interferometro per verificare se l’universo è pieno di un etere luminifero che consente alla luce di viaggiare sulla Terra dalle stelle. La loro dimensione dell’effetto campione era molto piccola e i fisici accettano che la dimensione dell’effetto di popolazione sia zero perché non c’è etere luminifero. Utilizzo di test tradizionali di significatività con 0,05 o 0.,005 cutoff, replicare Michelson e Morley sarebbe problematico (vedi Sawilowsky, 2003, per una discussione di questo esperimento nel contesto del test di ipotesi). Eppure i fisici considerano l’esperimento altamente replicabile (vedi anche Meehl, 1967). Qualsiasi proposta che presenta criteri di rifiuto del valore p costringe la probabilità di replica ad essere influenzata dalla dimensione dell’effetto della popolazione, e quindi deve essere respinta se accettiamo l’idea che la replicabilità non debba dipendere dalla dimensione dell’effetto della popolazione.

Inoltre, con un livello alfa di 0.,005, le grandi dimensioni degli effetti sarebbero più importanti per la pubblicazione, e i ricercatori potrebbero orientarsi molto più verso la ricerca “ovvia” che verso la sperimentazione di idee creative in cui vi è più il rischio di piccoli effetti e di valori p che non riescono a soddisfare la barra 0.005. Molto probabilmente, una ragione per cui i risultati nulli sono così difficili da pubblicare in scienze come la psicologia è perché la tradizione di usare i tagli del valore p è così radicata. Sarebbe utile porre fine a questa tradizione.,

Accuratezza delle dimensioni degli effetti pubblicati

È auspicabile che i fatti pubblicati nelle letterature scientifiche riflettano accuratamente la realtà. Considera di nuovo il problema della regressione. Più rigoroso è il livello di criterio per la pubblicazione, maggiore è la distanza da una constatazione che passa il criterio alla media, e quindi c’è un effetto di regressione crescente. Anche allo 0.,05 livello alfa, i ricercatori hanno da tempo riconosciuto che le dimensioni degli effetti pubblicati probabilmente non riflettono la realtà, o almeno non la realtà che si vedrebbe se ci fossero molte repliche di ogni esperimento e tutte fossero state pubblicate (vedi Briggs, 2016; Grice, 2017; Hyman, 2017; Kline, 2017; Locascio, 2017a,b; Marks, 2017 per una recente discussione di questo problema). Sotto dimensioni ragionevoli del campione e dimensioni ragionevoli dell’effetto di popolazione, sono le dimensioni anormalmente grandi dell’effetto del campione che si traducono in valori p che soddisfano il livello 0.05 o 0.,livello 005, o qualsiasi altro livello alfa, come è ovvio dal punto di vista della regressione statistica. E con dimensioni del campione tipicamente basse, gli effetti statisticamente significativi spesso sono sopravvalutazioni delle dimensioni degli effetti della popolazione, che si chiama “inflazione delle dimensioni degli effetti”, “inflazione della verità” o “maledizione del vincitore” (Amrhein et al., 2017). La sovrastima della dimensione dell’effetto è stata dimostrata empiricamente nella Open Science Collaboration (2015), dove la dimensione media dell’effetto nella coorte di replicazione degli studi è stata drasticamente ridotta dalla dimensione media dell’effetto nella coorte originale (da 0.403 a 0.197)., Il passaggio a un taglio più rigoroso di 0,005 comporterebbe una sovrastima delle dimensioni dell’effetto peggiore (Button et al., 2013; Amrhein e Groenlandia, 2018). L’importanza di avere le dimensioni degli effetti pubblicati riflettono accuratamente le dimensioni degli effetti della popolazione contraddice l’uso di criteri di soglia e di test di significatività, a qualsiasi livello alfa.

Dimensione del campione e alternative al test di significatività

Sottolineiamo che la replicazione dipende in gran parte dalla dimensione del campione, ma ci sono fattori che interferiscono con i ricercatori che utilizzano le grandi dimensioni del campione necessarie per una buona precisione di campionamento e replicabilità., Oltre agli ovvi costi per ottenere campioni di grandi dimensioni, potrebbe esserci una sottovalutazione di quanto le dimensioni del campione siano importanti (Vankov et al., 2014), dell’importanza degli incentivi per favorire la novità rispetto alla replicabilità (Nosek et al., 2012) e di un equivoco prevalente secondo cui il complemento dei valori p misura la replicabilità (Cohen, 1994; Thompson, 1996; Groenlandia et al., 2016). Un focus sulla dimensione del campione suggerisce un’alternativa al test di significatività., Trafimow (2017; Trafimow e MacDonald, 2017) ha suggerito una procedura come segue: il ricercatore specifica quanto vicino desidera che le statistiche del campione siano ai loro corrispondenti parametri di popolazione e la probabilità desiderata di essere così vicino. Le equazioni di Trafimow possono essere utilizzate per ottenere la dimensione del campione necessaria per soddisfare questa specifica di vicinanza., Il ricercatore ottiene quindi la dimensione del campione necessaria, calcola le statistiche descrittive e le prende come stime accurate dei parametri di popolazione (provvisoriamente su nuovi dati, ovviamente; un modo ottimale per ottenere una stima affidabile è tramite metodi robusti, vedi Huber, 1972; Tukey, 1979; Rousseeuw, 1991; Portnoy e Lui, 2000; Erceg-Hurn et al., 2013; Campo e Wilcox, 2017). Metodi simili esistono da tempo in cui la dimensione del campione si basa sulla larghezza massima desiderata per gli intervalli di confidenza.,

Questa procedura di vicinanza sottolinea (a) decidere cosa serve per credere che le statistiche del campione siano buone stime dei parametri della popolazione prima della raccolta dei dati piuttosto che dopo, e (b) ottenere una dimensione del campione abbastanza grande da essere sicuri che le statistiche del campione ottenute siano realmente entro determinate distanze dai corrispondenti parametri della popolazione. La procedura, inoltre, non promuove bias pubblicazione perché non vi è alcun limite per le decisioni di pubblicazione., E la procedura di prossimità non è la stessa dell’analisi di potenza tradizionale: in primo luogo, l’obiettivo dell’analisi di potenza tradizionale è trovare la dimensione del campione necessaria per avere buone possibilità di ottenere un valore p statisticamente significativo. In secondo luogo, l’analisi di potenza tradizionale è fortemente influenzata dalla dimensione dell’effetto previsto, mentre la procedura di vicinanza non è influenzata dalla dimensione dell’effetto previsto nei modelli normali (gaussiani).

Il punto più grande è che ci sono alternative creative al test di significatività che affrontano il problema della dimensione del campione molto più direttamente del test di significatività., Il” toolbox statistico “(Gigerenzer e Marewski, 2015) include inoltre, ad esempio, intervalli di confidenza (che dovrebbero piuttosto essere rinominati e usati come”intervalli di compatibilità ” —vedi Amrhein et al., 2018; Groenlandia, 2018), test di equivalenza, valori p come misure continue di prove confutazionali contro un modello (Groenlandia, 2018), rapporti di verosimiglianza, metodi bayesiani o criteri di informazione. E nelle situazioni di produzione o controllo della qualità, anche le decisioni di Neyman-Pearson possono avere senso (Bradley and Brand, 2016).,

Ma per l’esplorazione scientifica, nessuno di questi strumenti dovrebbe diventare il nuovo metodo magico che fornisce risposte meccaniche chiare (Cohen, 1994), perché ogni criterio di selezione ignorerà l’incertezza a favore del processo decisionale binario e quindi produrrà gli stessi problemi di quelli causati dal test di significatività. L’utilizzo di una soglia per il fattore di Bayes, ad esempio, si tradurrà in un dilemma simile a quello di una soglia per il valore p: come Konijn et al. (2015) ha suggerito, ” Dio amerebbe un fattore di Bayes di 3.01 quasi quanto un fattore di Bayes di 2.99.,”

Infine, l’inferenza non dovrebbe essere basata su singoli studi (Neyman e Pearson, 1933; Fisher, 1937; Groenlandia, 2017), né su repliche dallo stesso laboratorio, ma su prove cumulative da più studi indipendenti. È auspicabile ottenere stime precise in questi studi, ma un obiettivo più importante è quello di eliminare i pregiudizi di pubblicazione includendo ampi intervalli di confidenza e piccoli effetti in letteratura, senza i quali l’evidenza cumulativa sarà distorta (Amrhein et al., 2017, 2018; Amrhein e Groenlandia, 2018)., Lungo queste linee, Briggs (2016) sostiene l’abbandono dell’inferenza basata sui parametri e l’adozione di modelli di probabilità puramente predittivi, e quindi verificabili, e Greenland (2017) vede “un disperato bisogno di allontanarsi dalle statistiche inferenziali e di avvicinarsi più strettamente alle descrizioni delle procedure di studio, alla raccolta dei dati e ai dati risultanti.”

Conclusione

Sembra opportuno concludere con il problema di base che è stato con noi fin dall’inizio., I valori p e le soglie di valore p, o qualsiasi altro strumento statistico, dovrebbero essere utilizzati come criterio principale per prendere decisioni di pubblicazione o decisioni sull’accettazione o il rifiuto di ipotesi? Il semplice fatto che i ricercatori si occupino della replicazione, tuttavia è concettualizzato, indica un apprezzamento del fatto che i singoli studi sono raramente definitivi e raramente giustificano una decisione finale., Nel valutare la forza delle prove, i ricercatori sofisticati considerano, in modo certamente soggettivo, considerazioni teoriche come la portata, l’ampiezza esplicativa e il potere predittivo; il valore delle ipotesi ausiliarie che collegano i termini non osservazionali nelle teorie ai termini osservazionali nelle ipotesi empiriche; la forza del progetto sperimentale; e le implicazioni per le applicazioni. Far bollire tutto questo fino a una decisione binaria basata su una soglia di valore p di 0,05, 0,01, 0,005 o qualsiasi altra cosa, non è accettabile.,

Contributi dell’autore

Tutti gli autori elencati hanno dato un contributo diretto al documento o approvano il suo contenuto e lo hanno approvato per la pubblicazione.

Dichiarazione di conflitto di interessi

FK-N è stato impiegato da Oikostat GmbH. GM ha agito come consulente per Janssen Research and Development, LLC.

Gli altri autori dichiarano che la ricerca è stata condotta in assenza di rapporti commerciali o finanziari che potrebbero essere interpretati come un potenziale conflitto di interessi.,

Ringraziamenti

Ringraziamo Sander Groenlandia e Rink Hoekstra per i commenti e le discussioni. MG riconosce il sostegno di VEGA 2/0047/15 grant. RvdS è stato sostenuto da una sovvenzione dell’organizzazione olandese per la ricerca scientifica: NWO-VIDI-45-14-006. La pubblicazione è stata finanziata dalla sovvenzione 156294 della Fondazione nazionale svizzera per la scienza a VA.

Bradley, MT e Brand, A. (2016). Il test di significatività ha bisogno di una tassonomia: o come la controversia di Fisher, Neyman-Pearson ha portato alla coda inferenziale che scodinzola il cane di misurazione. Psicol. Rep. 119, 487-504., doi: 10.1177/0033294116662659

PubMed Abstract / CrossRef Full Text / Google Scholar

Briggs, WM (2016). Incertezza: L’anima della modellazione, probabilità e statistica. Il suo nome deriva dal nome di “Springer”.

Google Scholar

Cohen, J. (1994). La terra è rotonda (p < 0.05). Essere. Psicol. 49, 997–1003.

Google Scholar

Fisher, RA (1925). Metodi statistici per i ricercatori, 1 ° Edn. Edinburgh: Oliver e Boyd.

Fisher, RA (1937)., La progettazione di esperimenti, 2nd Edn. Edinburgh: Oliver e Boyd.

Fisher, RA (1973). Metodi statistici e inferenza scientifica, 3 ° Edn. Londra: Macmillan.

Mayo, D. (1996). Errore e crescita della conoscenza sperimentale. Chicago, IL: L’Università di Chicago Press.

Google Scholar

Melton, A. (1962). Editoriale. J. Scad. Psicol. 64, 553–557. doi: 10.1037/h0045549

CrossRef Full Text

Open Science Collaboration (2015). Stima della riproducibilità della scienza psicologica., Scienza 349: aac4716. doi: 10.1126 / scienza.aac4716

CrossRef Testo completo

Pagina, P. (2014). Oltre la significatività statistica: interpretazione clinica della letteratura di ricerca riabilitativa. Int. J. Sport Phys. Ther. 9:72.

PubMed Abstract/Google Scholar

Thompson, B. (1996). Politiche editoriali di AERA in materia di test di significatività statistica: tre riforme suggerite. Educ. Res. 25, 26-30. doi: 10.2307/1176337

CrossRef Full Text/Google Scholar

Trafimow, D. (2017)., Utilizzando il coefficiente di confidenza per rendere il passaggio filosofico da a posteriori a statistiche inferenziali a priori. Educ. Psicol. Mea. 77, 831–854. doi: 10.1177 / 0013164416667977

CrossRef Full Text / Google Scholar

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *