Root Mean Square Error (RMSE) è un modo standard per misurare l’errore di un modello nella previsione dei dati quantitativi. Formalmente esso è definito come segue:
Cerchiamo di esplorare il perché di questa misura di errore senso dal punto di vista matematico., Ignorando la divisione per n sotto la radice quadrata, la prima cosa che possiamo notare è una somiglianza con la formula per la distanza Euclidea tra due vettori in ℝⁿ:
Questo ci dice euristicamente che RMSE può essere pensato come una sorta di (normalizzata) la distanza tra il vettore dei valori stimati e il vettore dei valori osservati.
Ma perché stiamo dividendo per n sotto la radice quadrata qui?, Se manteniamo n(il numero di osservazioni) fisso, tutto ciò che fa è ridimensionare la distanza euclidea di un fattore di √(1/n). È un po ‘complicato capire perché questa è la cosa giusta da fare, quindi approfondiamo un po’ più a fondo.,
Immaginare che i nostri valori osservati sono determinato aggiungendo casuale “errori” per ciascuno dei predetti valori, come segue:
Questi errori, pensato come variabili casuali, potrebbe avere distribuzione Gaussiana con media µ e deviazione standard σ, ma qualsiasi altra distribuzione con un quadrato integrabile PDF (funzione di densità di probabilità) anche il lavoro., Vogliamo pensare a quantity come una quantità fisica sottostante, come la distanza esatta da Marte al Sole in un particolare punto nel tempo. La nostra quantità osservata Yᵢ sarebbe quindi la distanza da Marte al Sole mentre la misuriamo, con alcuni errori provenienti da una errata calibrazione dei nostri telescopi e dal rumore di misurazione da interferenze atmosferiche.,
La media µ della distribuzione dei nostri errori corrisponderebbe ad una persistente bias provenienti da errori di calibrazione, mentre la deviazione standard σ corrisponde alla quantità di misurazione del rumore. Immagina ora che conosciamo esattamente la media μ della distribuzione per i nostri errori e vorremmo stimare la deviazione standard σ., Siamo in grado di vedere attraverso un po ‘ di calcolo che:
Qui E è l’aspettativa, e Var(…) è la varianza. Possiamo sostituire la media delle aspettative E sulla terza riga con la E sulla quarta riga dove ε è una variabile con la stessa distribuzione di ciascuna delle eᵢ, perché gli errori eᵢ sono distribuiti in modo identico, e quindi i loro quadrati hanno tutti la stessa aspettativa.
Ricorda che presumevamo di conoscere già μ esattamente., Cioè, il pregiudizio persistente nei nostri strumenti è un pregiudizio noto, piuttosto che un pregiudizio sconosciuto. Quindi potremmo anche correggere questo pregiudizio subito sottraendo μ da tutte le nostre osservazioni grezze. Cioè, potremmo anche supporre che i nostri errori siano già distribuiti con media μ = 0. Collegare questo in l’equazione di cui sopra e prendere la radice quadrata di entrambi i lati, poi, cede:
si Noti la sinistra sembra familiare!, Se abbiamo rimosso l’aspettativa E dall’interno della radice quadrata, è esattamente la nostra formula per la forma RMSE prima. Il teorema del limite centrale ci dice che quando n diventa più grande, la varianza della quantità σᵢ (y — y.) 2 / n = σ Σ (e e)2 / n dovrebbe convergere a zero. In effetti una forma più nitida del teorema del limite centrale ci dice che la sua varianza dovrebbe convergere a 0 asintoticamente come 1/n. Questo ci dice che σᵢ (ŷᵢ — y y)2 / n è un buon stimatore per E = σ2. Ma allora RMSE è un buon stimatore per la deviazione standard σ della distribuzione dei nostri errori!,
Ora dovremmo anche avere una spiegazione per la divisione per n sotto la radice quadrata in RMSE: ci permette di stimare la deviazione standard σ dell’errore per una tipica osservazione singola piuttosto che una sorta di “errore totale”. Dividendo per n, manteniamo coerente questa misura di errore mentre passiamo da una piccola raccolta di osservazioni a una raccolta più ampia (diventa più accurata man mano che aumentiamo il numero di osservazioni). Per dirla in un altro modo, RMSE è un buon modo per rispondere alla domanda: “Quanto lontano dovremmo aspettarci che il nostro modello sia sulla sua prossima previsione?,”
Per riassumere la nostra discussione, RMSE è una buona misura, se si vuole stimare la deviazione standard σ di un tipico valore osservato dal nostro modello di stima, assumendo che i nostri dati osservati può essere scomposto come:
Il rumore casuale qui potrebbe essere tutto ciò che il nostro modello non cattura (ad esempio, variabili sconosciute che potrebbero influenzare i valori osservati)., Se il rumore è piccolo, come stimato da RMSE, questo in genere significa che il nostro modello è bravo a prevedere i nostri dati osservati, e se RMSE è grande, questo in genere significa che il nostro modello non riesce a tenere conto di importanti caratteristiche alla base dei nostri dati.
RMSE nella scienza dei dati: sottigliezze dell’uso di RMSE
Nella scienza dei dati, RMSE ha un doppio scopo:
- Per servire come euristica per i modelli di allenamento
- Per valutare i modelli addestrati per utilità / accuratezza
Ciò solleva una domanda importante: Cosa significa per RMSE essere “piccolo”?,
Dovremmo notare innanzitutto che “piccolo” dipenderà dalla nostra scelta di unità e dall’applicazione specifica che speriamo. 100 pollici è un grosso errore nella progettazione di un edificio, ma 100 nanometri non lo è. D’altra parte, 100 nanometri è un piccolo errore nella fabbricazione di un vassoio di cubetti di ghiaccio, ma forse un grande errore nella fabbricazione di un circuito integrato.
Per i modelli di allenamento, non importa quali unità stiamo usando, poiché tutto ciò che ci interessa durante l’allenamento è avere un’euristica per aiutarci a ridurre l’errore ad ogni iterazione., Ci preoccupiamo solo della dimensione relativa dell’errore da un passaggio all’altro, non della dimensione assoluta dell’errore.
Ma nel valutare modelli addestrati nella scienza dei dati per utilità / accuratezza , ci preoccupiamo delle unità, perché non stiamo solo cercando di vedere se stiamo facendo meglio dell’ultima volta: vogliamo sapere se il nostro modello può effettivamente aiutarci a risolvere un problema pratico. La sottigliezza qui è che valutare se RMSE è sufficientemente piccolo o meno dipenderà da quanto sia accurato il nostro modello per la nostra data applicazione., Non ci sarà mai una formula matematica per questo, perché dipende da cose come le intenzioni umane (“Cosa intendi fare con questo modello?”), avversione al rischio (“Quanto danno sarebbe causato se questo modello facesse una cattiva previsione?”), ecc.
Oltre alle unità, c’è anche un’altra considerazione: “piccolo” deve anche essere misurato in relazione al tipo di modello utilizzato, al numero di punti dati e alla cronologia dell’addestramento che il modello ha attraversato prima di valutarlo per la precisione., In un primo momento questo può sembrare contro-intuitivo, ma non quando si ricorda il problema di over-fitting.
C’è il rischio di sovra-adattamento ogni volta che il numero di parametri nel modello è grande rispetto al numero di punti dati che hai. Per esempio, se stiamo cercando di prevedere una quantità reale di y in funzione di un’altra quantità reale x, e le nostre osservazioni sono (xᵢ, yᵢ) con x₁ < x₂ < x₃ … , un generale di interpolazione teorema ci dice che c’è qualche funzione polinomiale f(x) di grado al più n+1 con f(xᵢ) = yᵢ per i = 1, … , n., Ciò significa che se abbiamo scelto il nostro modello per essere un polinomio di grado n + 1, modificando i parametri del nostro modello (i coefficienti del polinomio), saremmo in grado di portare RMSE fino a 0. Questo è vero indipendentemente da quali sono i nostri valori y. In questo caso RMSE non ci dice nulla sull’accuratezza del nostro modello sottostante: ci è stato garantito di essere in grado di modificare i parametri per ottenere RMSE = 0 come misurato misurato sui nostri punti dati esistenti indipendentemente dal fatto che ci sia una relazione tra le due quantità reali.,
Ma non è solo quando il numero di parametri supera il numero di punti dati che potremmo incorrere in problemi. Anche se non abbiamo una quantità assurdamente eccessiva di parametri, può darsi che i principi matematici generali insieme a ipotesi di fondo lievi sui nostri dati ci garantiscano un’alta probabilità che modificando i parametri nel nostro modello, possiamo portare l’RMSE al di sotto di una certa soglia. Se ci troviamo in una situazione del genere, allora RMSE essere al di sotto di questa soglia potrebbe non dire nulla di significativo sul potere predittivo del nostro modello.,
Se volessimo pensare come uno statistico, la domanda che ci porremmo non è “Il RMSE del nostro modello addestrato è piccolo?”ma piuttosto,” Qual è la probabilità che il RMSE del nostro modello addestrato su tale e tale insieme di osservazioni sia così piccolo per caso casuale?”
Questo tipo di domande diventa un po ‘complicato (in realtà devi fare statistiche), ma spero che tu abbia l’idea del perché non esiste una soglia predeterminata per” piccolo abbastanza RMSE”, facile come quello renderebbe le nostre vite.