root mean Square Error (RMSE)je standardní způsob měření chyby modelu při předpovídání kvantitativních dat. Formálně je definován takto:
pokusme se zjistit, proč se toto opatření chyb dává smysl z matematického hlediska., Ignoruje rozdělení o n pod odmocninou, první věc, kterou můžeme všimnout, je podoba vzorce pro Euklidovská vzdálenost mezi dvěma vektory v ℝⁿ:
To nám říká, heuristicky, že RMSE může být myšlenka jako nějaký (normalizované) vzdálenost mezi vektor predikovaných hodnot a vektor pozorovaných hodnot.
ale proč zde dělíme n pod druhou odmocninou?, Pokud udržíme n(počet pozorování) fixní, vše, co dělá, je přehodnotit euklidovskou vzdálenost faktorem √(1/n). Je trochu složité pochopit, proč je to správná věc, takže se ponoříme o něco hlouběji.,
Představte si, že naše pozorované hodnoty jsou stanoveny přidáním náhodné „chyby“, aby každý z předpokládané hodnoty, a to následovně:
Tyto chyby, myšlenka jako náhodné proměnné, možná mají Gaussovské rozdělení se střední hodnotou μ a směrodatnou odchylku σ, ale nějaké jiné distribuce s square-integrovatelná PDF (funkce hustoty pravděpodobnosti) by také pracovat., Chceme myslet na základní fyzikální veličinu, jako je přesná vzdálenost od Marsu ke slunci v určitém časovém okamžiku. Naše pozorované množství yᵢ by být poté vzdálenost od Marsu ke Slunci, jak můžeme změřit, s některé chyby pocházející z mis-kalibrace naše dalekohledy a měření hluku z atmosférické rušení.,
průměr μ rozdělení našich chyb by odpovídalo přetrvávající zaujatost pocházející z mis-kalibrace, zatímco směrodatná odchylka σ bude odpovídat množství měření hluku. Představte si nyní, že známe průměr μ distribuce pro naše chyby přesně a chtěli bychom odhadnout směrodatnou odchylku σ., Můžeme vidět trochu skrz výpočtu, že:
Zde E je očekávání, a Var(…) je rozptyl. Můžeme nahradit průměrná očekávání E na třetím řádku s E na čtvrtém řádku, kde ε je proměnná s stejné rozdělení jako každý z eᵢ, protože chyby eᵢ jsou shodně rozloženy, a proto je jejich čtverců všichni mají stejné očekávání.
pamatujte, že jsme předpokládali, že už víme μ přesně., To znamená, že přetrvávající zaujatost v našich nástrojích je známá zaujatost, spíše než neznámá zaujatost. Takže bychom mohli napravit tuto zaujatost hned od pálky odečtením μ od všech našich surových pozorování. To znamená, že bychom mohli také předpokládat, že naše chyby jsou již distribuovány se střední μ = 0. Zapojíte to do výše uvedené rovnice a odmocníme obě strany pak výnosy:
Všimněte si, na levé straně vypadá povědomě!, Pokud jsme odstranili očekávání E zevnitř odmocniny, je to přesně náš vzorec pro formu RMSE dříve. Centrální limitní věta nám říká, že jak se n zvětšuje, rozptyl množství Σᵢ (ŷᵢ — yᵢ)2 / n = Σᵢ (eᵢ)2 / n by měl konvergovat k nule. Ve skutečnosti ostřejší formě centrální limitní věta nám říct jeho rozptylu by měly konvergovat k 0 asymptoticky jako 1/n. To nám říká, že Σᵢ (ŷᵢ — yᵢ)2 / n je dobrý odhad pro E = σ2. Ale pak RMSE je dobrý odhad pro směrodatnou odchylku σ rozdělení našich chyb!,
nyní bychom měli mít také vysvětlení rozdělení n pod druhou odmocninou v RMSE: umožňuje nám odhadnout směrodatnou odchylku σ chyby pro typické jediné pozorování spíše než nějakou „úplnou chybu“. Dělením n udržujeme tuto míru chyby konzistentní, když se přesouváme z malé sbírky pozorování do větší sbírky (stává se přesnější, když zvyšujeme počet pozorování). Chcete-li to frázovat jiným způsobem, RMSE je dobrý způsob, jak odpovědět na otázku :“ jak daleko bychom měli očekávat, že náš model bude na další predikci?,“
Abych to shrnul naše diskuse, RMSE je to dobré opatření použít, pokud chceme odhad směrodatné odchylky σ typické pozorované hodnoty z našeho modelu je predikce, za předpokladu, že naše zjištěné údaje lze rozložit jako:
Náhodný hluk zde může být cokoliv, že náš model nezachycuje (např. neznámé proměnné, které by mohly mít vliv na pozorované hodnoty)., Pokud hluk je malý, podle odhadu RMSE, to obecně znamená, že náš model je dobrý v předpovídání našich pozorovaných dat, a pokud RMSE je velký, to obecně znamená, že náš model selhává na účet pro důležité funkce hlubších naše data.
RMSE v Data Science: Jemnosti Pomocí RMSE
V data science, RMSE má dvojí účel:
- sloužit jako heuristika pro školení modely
- hodnotit vyškoleni modely pro užitečnost / přesnost
To vyvolává důležitou otázku: Co to znamená pro RMSE být „malé“?,
v první řadě bychom měli poznamenat, že“ malé “ bude záviset na našem výběru jednotek a na konkrétní aplikaci, v kterou doufáme. 100 palců je velká chyba v konstrukci budovy, ale 100 nanometrů není. Na druhou stranu, 100 nanometrů je malá chyba na zhotovení zásobníku na led, ale možná velkou chybu při zhotovení integrovaný obvod.
Pro školení modely, to nezáleží na tom, jaké jednotky používáme, protože nám jde o během školení je, že heuristické, aby nám pomohli snížit chyby s každou iteraci., Staráme se pouze o relativní velikost chyby z jednoho kroku do druhého, nikoli o absolutní velikost chyby.
Ale v hodnocení vyškoleni modely v data science pro užitečnost / přesnost , děláme péči o jednotky, protože nejsme jen snaží zjistit, jestli jsme na tom lépe než minule: chceme vědět, jestli náš model může skutečně pomoci nám vyřešit praktický problém. Jemnost je, že hodnocení, zda RMSE je dostatečně malá, nebo ne, bude záviset na tom, jak přesně musíme náš model bude pro naši danou aplikaci., Nikdy na to nebude matematický vzorec, protože záleží na věcech, jako jsou lidské úmysly („co s tímto modelem hodláte dělat?“), averze k riziku („kolik škody by bylo způsobeno, kdyby tento model udělal špatnou předpověď?”), atd.
Kromě toho jednotky, tam je další úvaha: „malý“ také musí být měřena vzhledem k typu modelu používá, počet datových bodů, a historie školení model prošel, než jste hodnotili to pro přesnost., Zpočátku to může znít kontraintuitivně, ale ne, když si vzpomenete na problém nadměrné montáže.
existuje riziko nadměrné montáže, kdykoli je počet parametrů ve vašem modelu velký vzhledem k počtu datových bodů, které máte. Například, pokud se snažíme předpovědět skutečné množství y jako funkci jiné skutečné množství x, a naše pozorování jsou (xᵢ, yᵢ) s x₁ < x₂ < x₃ … , obecný interpolační věta nám říká, že tam je nějaký polynom f(x) stupně nejvýše n+1 s f(xᵢ) = yᵢ pro i = 1, … , n., To znamená, že pokud bychom si vybrali náš model jako polynom stupně n+1, vylepšením parametrů našeho modelu (koeficienty polynomu) bychom byli schopni přivést RMSE až na 0. To platí bez ohledu na to, jaké jsou naše hodnoty y. V tomto případě RMSE není opravdu nám nic neříká o přesnosti naší základní model: byli jsme zaručeno, že bude schopen vyladit parametry, aby si RMSE = 0, měřeno měřeno na našich stávajících datových bodů bez ohledu na to, zda existuje nějaký vztah mezi oběma skutečné množství.,
ale není to jen tehdy, když počet parametrů překročí počet datových bodů, které bychom mohli narazit na problémy. I když nemáme absurdně nadměrné množství parametrů, je možné, že obecné matematické principy spolu s mírným pozadí předpoklady na naše data zaručit, nám s vysokou pravděpodobností, že laděním parametrů v našem modelu, můžeme přinést RMSE pod určitou prahovou hodnotu. Pokud jsme v takové situaci, pak RMSE pod touto hranicí nemusí říkat nic smysluplného o prediktivní síle našeho modelu.,
Pokud bychom chtěli myslet jako statistik, otázka, kterou bychom se ptali, není “ je RMSE našeho vyškoleného modelu malá?“ale spíše,“ jaká je pravděpodobnost, že by RMSE našeho vyškoleného modelu na takovém A takovém souboru pozorování byla náhodně tak malá?“
Tyto druhy otázek, mít trochu komplikovaný (ve skutečnosti budete muset dělat statistiky), ale doufejme, že všichni ten obrázek, proč tam je žádné předem určené prahové hodnoty pro „dostatečně malé, RMSE“, tak jednoduché, jak by se náš život.