Welcome to Our Website

Hva gjør RMSE egentlig betyr?

Root Mean Square Error (RMSE) er en vanlig måte å måle feil av en modell for å forutsi kvantitative data. Formelt er definert som følger:

La oss prøve å utforske hvorfor dette tiltaket av feil fornuftig fra et matematisk perspektiv., Ignorerer divisjon med n under kvadratrot, det første vi kan legge merke til er en likhet til formelen for Euclidean avstand mellom to vektorer i ℝⁿ:

Dette forteller oss heuristically som RMSE kan sees på som en slags (normalisert) avstanden mellom vektor av predikerte verdier og vektor av observerte verdier.

Men hvorfor er vi å dele av n under kvadratrot her?, Hvis vi holder n (antall observasjoner) fast, alt den gjør er å skalere den Euclidean distance med en faktor på √(1/n). Det er litt vanskelig å se hvorfor dette er den riktige tingen å gjøre, så la oss dykke litt dypere.,

Tenk deg at våre observerte verdier bestemmes ved å legge til tilfeldige «feil» til hver av de anslåtte verdier, som følger:

Disse feilene, tenkt som tilfeldige variabler, kanskje har Gaussisk fordeling med mener μ og standardavvik σ, men noen andre distribusjon med en firkant-integrable PDF (probability density function) ville også fungere., Vi ønsker å tenke på ŷᵢ som en underliggende fysisk størrelse, for eksempel den nøyaktige avstanden fra Mars til Søndag på et bestemt tidspunkt. Våre observert antall yᵢ vil da være avstanden fra Mars til Solen slik vi måler det, med noen feil som kommer fra mis-kalibrering av våre teleskoper og måling av støy fra atmosfæriske forstyrrelser.,

(IKKE i MÅLESTOKK)

Det betyr μ av distribusjon av våre feil ville tilsvare en vedvarende bias kommer fra mis-kalibrering, mens standardavviket σ ville tilsvare beløpet som måling av støy. Tenk deg nå som vi vet betyr μ av distribusjon for våre feil nøyaktig og ønsker å estimere standardavviket σ., Vi kan se gjennom en bit av regnestykket:

Her E den forventning, og Var(…) er variansen. Vi kan erstatte gjennomsnitt av forventningene E på tredje linje med E på fjerde linje der ε er en variabel med samme fordeling som hver av de eᵢ, fordi feil eᵢ er helt likt fordelt, og dermed deres rutene alle har samme forventning.

Husk at vi regnet med at vi allerede visste μ nøyaktig., Det er den vedvarende skjevhet i våre instrumenter er en kjent bias, snarere enn en ukjent bias. Så vi kan like godt korrigere for dette bias rett utenfor balltre ved å trekke μ fra alle våre raw-observasjoner. Det er, kan vi tenke oss våre feil er allerede distribuert med mener μ = 0. Å koble dette inn i ligningen over og ta kvadratroten av begge sider så gir:

legg Merke til at den venstre siden ser kjent ut!, Hvis vi fjernet forventning E fra innsiden kvadratrot, det er akkurat vår formel for RMSE form før. Den sentrale grensesetningen forteller oss at når n blir større, variansen av antall Σᵢ (ŷᵢ — yᵢ)2 / n = Σᵢ (eᵢ)2 / n skal konvergere til null. Faktisk en skarpere form av sentralgrenseteoremet fortelle oss sin avvik skal konvergere til 0 asymptotically lik 1/n. Dette forteller oss at Σᵢ (ŷᵢ — yᵢ)2 / n er en god estimator for E = σ2. Men så RMSE er en god estimator for standardavviket σ av distribusjon av våre feil!,

bør Vi også nå har en forklaring for delingen av n under kvadratrot i RMSE: det gjør det mulig for oss å estimere standardavviket σ av feil for en typisk enkelt observasjon snarere enn noen form for «totalt feil». Ved å dele av n, vi holder dette mål av feil konsekvent som beveger vi fra en liten samling av observasjoner til en større samling (det blir bare mer nøyaktige når vi øker antall observasjoner). For å formulere det på en annen måte, RMSE er en god måte å svare på spørsmålet: «Hvor langt ut skal vi forventer at vår modell vil være på sin neste prediksjon?,»

for Å oppsummere diskusjonen vår, RMSE er et godt tiltak å bruke hvis vi ønsker å estimere standardavviket σ av en typisk observert verdi fra våre modellens prediksjon, forutsatt at våre observerte data kan deles opp slik:

Tilfeldig støy her kan det være alt for at våre modellen ikke fanger opp (f.eks., ukjente variabler som kan påvirke den observerte verdier)., Hvis støyen er liten, som anslått av RMSE, dette betyr vanligvis at vår modell er god til å tippe på våre observerte data, og hvis RMSE er stor, dette betyr vanligvis at vår modell er å unnlate å redegjøre for viktige funksjoner underliggende våre data.

RMSE i Data Vitenskap: Raffinert ved Hjelp av RMSE

I data vitenskap, RMSE har et dobbelt formål:

  • for Å tjene som en heuristisk for opplæring modeller
  • for Å vurdere trente modeller for nytten / nøyaktighet

Dette reiser et viktig spørsmål: Hva betyr det for RMSE for å være «liten»?,

Vi bør merke seg først og fremst som «liten» vil avhenge av vårt utvalg av enheter, og på den spesifikke program som vi håper på. 100 tommer er en stor feil i en bygning design, men 100 nanometer er det ikke. På den annen side, 100 nanometer er en liten feil i å fabrikkere en isbit brett, men kanskje en stor feil i å fabrikkere en integrert krets.

For opplæring modeller, spiller det egentlig ingen rolle hva enheter vi bruker, siden alt vi bryr oss om under trening er å ha en heuristisk for å hjelpe oss å redusere feil med hver iterasjon., Vi bare bryr seg om relative størrelse av feil fra ett trinn til det neste, ikke den absolutte størrelsen på feilen.

Men i evaluere trente modeller i data vitenskap for nytten / nøyaktighet , vi bryr oss om enheter, fordi vi ikke bare prøver å se om vi får gjøre det bedre enn forrige gang: vi ønsker å vite om vår modell kan faktisk hjelpe oss med å løse et praktisk problem. Subtilitet her er som å vurdere om RMSE er tilstrekkelig små eller ikke, vil avhenge av hvor nøyaktig vi trenger vår modell vil være for våre gitt program., Det er aldri kommer til å bli en matematisk formel for dette, fordi det avhenger av ting som menneskelige intensjoner («Hva har du tenkt å gjøre med denne modellen?»), risikoaversjon («Hvor mye skade ville oppstå dersom denne modellen er det gjort en dårlig spådom?”), osv.

Foruten enheter, det er en annen vurdering også: «små» også behov for å bli målt i forhold til den type modell som er brukt, antall datapunkter, og historien om trening modellen gikk gjennom før du vurdert det for korrektheten., Først dette kan høres counter-intuitive, men ikke når du husker problemet med over-montering.

Det er en risiko for over-montering når antall parametere i modellen er stor i forhold til antall datapunkter du har. For eksempel, hvis vi prøver å forutsi en real mengde y som en funksjon av en annen virkelige antallet x, og våre observasjoner er (xᵢ, yᵢ) med x₁ < x₂ < x₃ … , et generelt tillegg teorem forteller oss at det er noen polynom f(x) av grad på de fleste n+1 med f(xᵢ) = yᵢ for i = 1, … , n., Dette betyr at hvis vi valgte vår modell vil være en grad n+1 polynom, ved tilpasning av parametrene i vår modell (koeffisientene i polynomet), ville vi være i stand til å bringe RMSE helt ned til 0. Dette gjelder uavhengig av hva vår y-verdier er. I dette tilfellet RMSE er egentlig ikke fortelle oss noe om nøyaktigheten av våre underliggende modellen: vi var garantert å være i stand til å justere parametere for å få RMSE = 0 målt målt på vår eksisterende data poeng uavhengig av om det er noen sammenheng mellom de to ekte mengder i det hele tatt.,

Men det er ikke bare når antall parametre overstiger antallet datapunkter som vi kan kjøre inn i problemer. Selv om vi ikke har en absurd overdreven mengde parametre, kan det være at den generelle matematiske prinsipper sammen med mild bakgrunn forutsetninger på våre data garantere oss med en høy sannsynlighet for at tilpasning av parametrene i vår modell, kan vi hente RMSE under en viss terskel. Hvis vi er i en slik situasjon, så RMSE å være under denne grensen kan ikke si noe meningsfylt om vår modell prediktiv kraft.,

Hvis vi ønsket å tenke som en statistiker, er det spørsmålet vi vil stille, er ikke «Er RMSE av våre opplærte modell små?»men snarere «Hva er sannsynligheten for at RMSE av våre opplærte modellen på en slik-og-slik sett av observasjoner ville være så lite ved tilfeldige?»

Disse typer spørsmål bli litt komplisert (du faktisk nødt til å gjøre statistikk), men forhåpentligvis y ‘ all få bilde av hvorfor det er ingen bestemt grense for «lite nok RMSE», så lett som det ville gjøre livene våre.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *