root Mean s .uare Error (RMSE) er en standard måde at måle fejlen på en model ved forudsigelse af kvantitative data. Formelt set er defineret som følger:
Lad os prøve at undersøge, hvorfor denne foranstaltning af fejl giver mening ud fra et matematisk perspektiv., Ignorerer division med n under kvadratroden, den første ting, vi kan mærke, er en lighed, at den formel for den Euklidiske afstand mellem to vektorer i ℝⁿ:
Dette fortæller os, heuristically, at RMSE kan opfattes som en form for (normaliseret) afstanden mellem vektoren af forventede værdier og en vektor af observerede værdier.
men hvorfor deler vi med n under kvadratroden her?, Hvis vi holder n(antallet af observationer) fast, er alt, hvad det gør, omskalere den euklidiske afstand med en faktor √(1/n). Det er lidt vanskeligt at se, hvorfor dette er den rigtige ting at gøre, så lad os dykke lidt dybere.,
Forestil dig, at den observerede værdier er bestemt ved at tilsætte tilfældige “fejl” til hver af de forudsagte værdier, som følger:
Disse fejl, kan opfattes som tilfældige variable, måske har Gauss fordeling med middelværdi μ og standardafvigelse σ, men enhver anden distribution med en kvadratisk integrable PDF (probability density function) vil også arbejde., Vi ønsker at tænke på ŷᵢ som en underliggende fysisk mængde, såsom den nøjagtige afstand fra Mars til solen på et bestemt tidspunkt. Vores observerede mængde y would ville derefter være afstanden fra Mars til Solen, når vi måler den, med nogle fejl, der kommer fra forkert kalibrering af vores teleskoper og målestøj fra atmosfærisk interferens.,
middelværdien μ af distribution af vores fejl ville svare til en vedvarende bias, der kommer fra mis-kalibrering, mens standardafvigelsen σ ville svare til det beløb, måling af støj. Forestil dig nu, at vi kender den gennemsnitlige μ for fordelingen for vores fejl nøjagtigt og gerne vil estimere standardafvigelsen.., Vi kan se gennem en smule af beregningen, at:
Her E er forventningen, og Var(…) er variansen. Vi kan erstatte gennemsnittet af forventningerne E på den tredje linje med E på den fjerde linje, hvor ε er en variabel med samme fordeling som hver af E,, fordi fejlene e are er identisk fordelt, og dermed har deres kvadrater alle samme forventning.
Husk, at vi antog, at vi allerede vidste exactly nøjagtigt., Det vil sige, at den vedvarende skævhed i vores instrumenter er en kendt skævhed, snarere end en ukendt skævhed. Så vi kan lige så godt korrigere for denne bias lige fra flagermus ved at trække μ fra alle vores rå observationer. Det vil sige, Vi kan lige så godt antage, at vores fejl allerede er fordelt med Middel μ = 0. At sætte dette i ligningen ovenfor, og tage kvadratroden af begge sider, så giver:
Bemærk venstre side ser bekendt ud!, Hvis vi fjernede forventningen E inde fra kvadratroden, er det nøjagtigt vores formel for RMSE-form før. Central limit theorem fortæller os, at når n bliver større, skal variansen af mængden 2 ((—- y)) 2 / n=. ((e 2) 2 / n konvergere til nul. Faktisk fortæller en skarpere form af central limit theorem os, at dens varians skal konvergere til 0 asymptotisk som 1/n. dette fortæller os, at 2 ((—- Y)) 2 / n er en god estimator for e = .2. Men så er RMSE en god estimator for standardafvigelsen!for fordelingen af vores fejl!,
Vi skal også nu have en forklaring på opdelingen med n under kvadratroden i RMSE: det giver os mulighed for at estimere standardafvigelsen.for fejlen for en typisk enkelt observation snarere end en slags “total fejl”. Ved at dividere med n holder vi denne fejlmåling konsekvent, når vi bevæger os fra en lille samling observationer til en større samling (det bliver bare mere præcist, når vi øger antallet af observationer). For at sætte det på en anden måde er RMSE en god måde at besvare spørgsmålet: “Hvor langt væk skal vi forvente, at vores model skal være på sin næste forudsigelse?,”
for At opsummere vores diskussion, RMSE er en god foranstaltning at bruge, hvis vi ønsker at beregne standardafvigelsen σ i en typisk observerede værdi fra vores model forudsigelse, under forudsætning af, at vores observerede data kan opdeles som:
Den tilfældige støj, der her kunne være noget, som vores model ikke tager højde for (fx, ukendte variabler, der kan påvirke de observerede værdier)., Hvis støjen er lille, som estimeret af RMSE, betyder det generelt, at vores model er god til at forudsige vores observerede data, og hvis RMSE er stor, betyder det generelt, at vores model ikke tager højde for vigtige funktioner, der ligger til grund for vores data.
RMSE i Data Videnskab: Finesser af Brug af RMSE
I data videnskab, RMSE har et dobbelt formål:
- til At fungere som et heuristisk for uddannelse modeller
- til At vurdere uddannet modeller for nytten / nøjagtighed
Dette rejser et vigtigt spørgsmål: Hvad betyder det for RMSE for at være “lille”?,
Vi skal først og fremmest bemærke, at “lille” afhænger af vores valg af enheder, og på den specifikke applikation, vi håber på. 100 tommer er en stor fejl i et Bygningsdesign, men 100 nanometer er det ikke. På den anden side er 100 nanometer en lille fejl ved fremstilling af en isterningsbakke, men måske en stor fejl ved fremstilling af et integreret kredsløb.
for træningsmodeller betyder det ikke rigtig noget, hvilke enheder vi bruger, da alt, hvad vi interesserer os for under træning, er at have en heuristisk til at hjælpe os med at mindske fejlen ved hver iteration., Vi bekymrer os kun om relativ størrelse af fejlen fra et trin til det næste, ikke den absolutte størrelse af fejlen.
men ved evaluering af uddannede modeller i datavidenskab for brugbarhed / nøjagtighed bryr vi os om enheder , fordi vi ikke bare prøver at se, om vi klarer os bedre end sidste gang: vi vil vide, om vores model faktisk kan hjælpe os med at løse et praktisk problem. Subtiliteten her er, at evaluering af, om RMSE er tilstrækkelig lille eller ej, afhænger af, hvor præcis vi har brug for, at vores model skal være til vores givne applikation., Der kommer aldrig til at være en matematisk formel til dette, fordi det afhænger af ting som menneskelige intentioner (“Hvad har du til hensigt at gøre med denne model?”), risikoaversion (“hvor meget skade ville der være forårsaget, hvis denne model gjorde en dårlig forudsigelse?”), osv.
udover enheder er der også en anden overvejelse: “lille” skal også måles i forhold til den type model, der bruges, antallet af datapunkter og historien om træning, som modellen gennemgik, før du vurderede den for nøjagtighed., I starten lyder det måske modintuitivt, men ikke når du husker problemet med overmontering.
Der er risiko for overmontering, når antallet af parametre i din model er stort i forhold til antallet af datapunkter, du har. For eksempel, hvis vi forsøger at forudsige en reel mængde y som en funktion af en anden reel mængde y, og vores observationer er (
men det er ikke kun, når antallet af parametre overstiger antallet af datapunkter, som vi kan løbe ind i problemer. Selv hvis vi ikke har en absurd overdreven mængde parametre, kan det være, at generelle matematiske principper sammen med milde baggrundsantagelser på vores data garanterer os med stor sandsynlighed for, at vi ved at finpusse parametrene i vores model kan bringe RMSE under en bestemt tærskel. Hvis vi er i en sådan situation, kan RMSE, der er under denne tærskel, ikke sige noget meningsfuldt om vores models forudsigelige kraft.,
Hvis vi ønskede at tænke som en statistiker, er det spørgsmål, vi ville stille, ikke “er RMSE for vores uddannede model lille?”men snarere,” hvad er sandsynligheden for, at vores uddannede model på sådanne og sådanne observationer ville være så lille tilfældigt?”
disse slags spørgsmål bliver lidt komplicerede (du skal faktisk lave statistikker), men forhåbentlig får du billedet af, hvorfor der ikke er nogen forudbestemt tærskel for” lille nok RMSE”, så let som det ville gøre vores liv.