Welcome to Our Website

vad betyder RMSE egentligen?

Root Mean Square Error (RMSE) är ett vanligt sätt att mäta felet hos en modell för att förutsäga kvantitativa data. Formellt definieras det enligt följande:

låt oss försöka utforska varför denna felmått är meningsfullt ur ett matematiskt perspektiv., Ignorera divisionen av n under kvadratroten, det första vi kan märka är en likhet med formeln för euklidiska avståndet mellan två vektorer i:

detta säger oss heuristiskt att RMSE kan ses som någon form av (normaliserad) avstånd mellan vektorn av förutspådda värden och vektorn av observerade värden.

men varför delar vi med n under kvadratroten här?, Om vi håller n(antalet observationer) fast, är allt det gör att skala om euklidiska avståndet med en faktor √(1/n). Det är lite knepigt att se varför det här är rätt sak att göra, så låt oss dyka in lite djupare.,

Föreställ dig att våra observerade värden bestäms genom att lägga till slumpmässiga ”fel” till var och en av de förutsagda värdena enligt följande:

dessa fel, tänkt som slumpmässiga variabler, kan ha Gaussisk fördelning med medelvärde μ och standardavvikelse σ, men någon annan fördelning med en kvadratisk integrerbar PDF (sannolikhetsdensitetsfunktion) skulle också fungera., Vi vill tänka på att vara en underliggande fysisk kvantitet, till exempel det exakta avståndet från mars till solen vid en viss tidpunkt. Vår observerade kvantitet y skulle då vara avståndet från Mars till solen när vi mäter det, med några fel som kommer från mis-kalibrering av våra teleskop och mätbrus från atmosfärisk störning.,

(inte skala)

medelvärdet μ för fördelningen av våra fel skulle motsvara en ihållande bias som kommer från mis-kalibrering, medan standardavvikelsen σ skulle motsvara mängden mätbrus. Föreställ dig nu att vi vet medelvärdet μ av fördelningen för våra fel exakt och vill uppskatta standardavvikelsen σ., Vi kan se genom lite beräkning som:

här E är förväntan, och Var(…) är variansen. Vi kan ersätta genomsnittet av förväntningarna E på den tredje raden med E på den fjärde raden där ε är en variabel med samma fördelning som var och en av e: n, eftersom felen E är identiskt fördelade, och därmed har deras kvadrater alla samma förväntningar.

Kom ihåg att vi antog att vi redan visste μ exakt., Det vill säga den ihållande biasen i våra instrument är en känd bias, snarare än en okänd bias. Så vi kan lika gärna korrigera för denna bias direkt från fladdermusen genom att subtrahera μ från alla våra råa observationer. Det vill säga, vi kan lika gärna anta att våra fel redan distribueras med medelvärde μ = 0. Anslut detta till ekvationen ovan och ta kvadratroten på båda sidor ger sedan:

Lägg märke till vänster handsidan ser bekant ut!, Om vi tog bort förväntan E från insidan av kvadratroten, är det exakt vår formel för RMSE form innan. Central limit theorem berättar för oss att när n blir större ska variansen av kvantiteten σ (S. M.) 2 / n = σ (S. M.) 2 / n konvergera till noll. I själva verket en skarpare form av den centrala gränsen teorem berätta dess varians bör konvergera till 0 asymptotiskt som 1 / n. detta berättar att σ (Trip) 2 / n är en bra Estimator för e = σ2. Men då är RMSE en bra estimator för standardavvikelsen σ av fördelningen av våra fel!,

Vi bör också nu ha en förklaring till uppdelningen av n under kvadratroten i RMSE: det tillåter oss att uppskatta standardavvikelsen σ av felet för en typisk enskild observation snarare än någon form av”totalt fel”. Genom att dividera med n håller vi denna felmått konsekvent när vi flyttar från en liten samling observationer till en större samling (det blir bara mer exakt när vi ökar antalet observationer). För att uttrycka det på ett annat sätt är RMSE ett bra sätt att svara på frågan: ”hur långt ska vi förvänta oss att vår modell ska vara på nästa förutsägelse?,”

för att sammanfatta vår diskussion är RMSE en bra åtgärd att använda om vi vill uppskatta standardavvikelsen σ av ett typiskt observerat värde från vår modells förutsägelse, förutsatt att våra observerade data kan sönderdelas som:

det slumpmässiga bruset här kan vara allt som vår modell inte fångar (t.ex. okända variabler som kan påverka de observerade värdena)., Om bullret är litet, vilket uppskattas av RMSE, betyder det i allmänhet att vår modell är bra på att förutsäga våra observerade data, och om RMSE är stor betyder det i allmänhet att vår modell misslyckas med att ta hänsyn till viktiga funktioner som ligger till grund för våra data.

RMSE in Data Science: subtiliteter av att använda RMSE

i datavetenskap har RMSE ett dubbelt syfte:

  • att fungera som en heuristisk för träningsmodeller
  • för att utvärdera utbildade modeller för användbarhet/noggrannhet

detta väcker en viktig fråga: Vad betyder det för RMSE att vara ”liten”?,

Vi bör först och främst notera att ” små ” beror på vårt val av enheter och på den specifika applikationen vi hoppas på. 100 inches är ett stort fel i en byggnad design, men 100 nanometer är inte. Å andra sidan är 100 nanometer ett litet fel vid tillverkning av en isbit, men kanske ett stort fel vid tillverkning av en integrerad krets.

för träningsmodeller spelar det egentligen ingen roll vilka enheter vi använder, eftersom allt vi bryr oss om under träning har en heuristisk för att hjälpa oss att minska felet med varje iteration., Vi bryr oss bara om den relativa storleken på felet från ett steg till nästa, inte den absoluta storleken på felet.

men vid utvärdering av utbildade modeller inom datavetenskap för användbarhet / noggrannhet bryr vi oss om enheter, eftersom vi inte bara försöker se om vi gör bättre än förra gången: vi vill veta om vår modell faktiskt kan hjälpa oss att lösa ett praktiskt problem. Subtiliteten här är att utvärdera om RMSE är tillräckligt liten eller inte beror på hur exakt vi behöver vår modell för att vara för vår givna applikation., Det kommer aldrig att bli en matematisk formel för detta, för det beror på saker som mänskliga avsikter (”vad tänker du göra med den här modellen?”), risk aversion (”hur mycket skada skulle orsakas vara om denna modell gjorde en dålig förutsägelse?”), osv.

förutom enheter finns det också ett annat övervägande: ”liten” måste också mätas i förhållande till vilken typ av modell som används, antalet datapunkter och träningshistoriken modellen gick igenom innan du utvärderade den för noggrannhet., Först kan det låta kontraintuitivt, men inte när du kommer ihåg problemet med övermontering.

det finns risk för övermontering när antalet parametrar i din modell är stort i förhållande till antalet datapunkter du har. Till exempel, om vi försöker att förutsäga en verkliga kvantiteten y som en funktion av en annan verkliga kvantiteten x, och våra observationer (xᵢ, yᵢ) med x₁ < x₂ < x₃ … , en allmän interpolation sats säger oss att det är några polynom f(x) av grad högst n+1 f(xᵢ) = yᵢ för i = 1, … , n., Det betyder att om vi valde vår modell för att vara en grad n + 1 polynom, genom att justera parametrarna för vår modell (polynomens koefficienter), skulle vi kunna få RMSE hela vägen ner till 0. Detta är sant oavsett vad våra y värden är. I det här fallet är RMSE inte riktigt berätta något om riktigheten i vår underliggande modell: vi var garanterade att kunna justera parametrar för att få RMSE = 0 mätt på våra befintliga datapunkter oavsett om det finns något samband mellan de två verkliga kvantiteter alls.,

men det är inte bara när antalet parametrar överstiger antalet datapunkter som vi kan stöta på problem. Även om vi inte har en absurt överdriven mängd parametrar kan det vara att allmänna matematiska principer tillsammans med milda bakgrundsantaganden på våra data garanterar oss med stor sannolikhet att vi genom att justera parametrarna i vår modell kan få RMSE under en viss tröskel. Om vi befinner oss i en sådan situation kan RMSE under denna tröskel inte säga något meningsfullt om vår modells prediktiva kraft.,

om vi ville tänka som en statistiker är frågan vi skulle fråga inte ” är RMSE för vår utbildade modell liten?”men snarare,” vad är sannolikheten RMSE av vår utbildade modell på sådan – och-sådan uppsättning observationer skulle vara så liten av slumpen?”

dessa typer av frågor blir lite komplicerade (du måste faktiskt göra statistik), men förhoppningsvis får du bilden av varför det inte finns någon förutbestämd tröskel för ”liten nog RMSE”, så lätt som det skulle göra våra liv.

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *