Welcome to Our Website

wat betekent RMSE echt?

Root Mean Square Error (RMSE) is een standaard manier om de fout van een model te meten in het voorspellen van kwantitatieve gegevens. Formeel is als volgt gedefinieerd:

Laten we proberen te ontdekken waarom deze maatregel van de fout zinvol vanuit een wiskundig perspectief., Het negeren van de deling door n onder de wortel, het eerste wat we zien is een gelijkenis met de formule voor de Euclidische afstand tussen twee vectoren in ℝⁿ:

Dit vertelt ons heuristisch dat RMSE kan worden beschouwd als een soort van (genormaliseerde) afstand tussen de vector van de voorspelde waarden en de vector van de waargenomen waarden.

maar waarom delen we hier door n onder de vierkantswortel?, Als we n (het aantal waarnemingen) vast houden, is het enige wat het doet, de Euclidische afstand herschalen met een factor √(1 / n). Het is een beetje lastig om te zien waarom dit het juiste is om te doen, dus laten we er wat dieper op ingaan.,

Stel je voor dat onze waargenomen waarden worden bepaald door het toevoegen van willekeurige “fouten” die aan elk van de voorspelde waarden, als volgt:

Deze fouten, gedacht als random variabelen, misschien hebben Gaussische distributie met gemiddelde μ en standaardafwijking σ, maar een andere verdeling met een i-integreerbare PDF (kansmassa) ook zou werken., We willen ŷ zien als een onderliggende fysische grootheid, zoals de exacte afstand van Mars tot de zon op een bepaald punt in de tijd. Onze waargenomen hoeveelheid yᵢ zou dan de afstand van Mars tot de zon zijn als we die meten, met enkele fouten die voortkomen uit verkeerde kalibratie van onze telescopen en het meten van ruis door atmosferische interferentie.,

(niet op schaal)

Het gemiddelde μ van de verdeling van onze fouten zou overeenkomen met een aanhoudende bias afkomstig van verkeerde kalibratie, terwijl de standaardafwijking σ zou overeenkomen met de hoeveelheid meetgeluid. Stel je nu voor dat we de gemiddelde μ van de verdeling voor onze fouten precies kennen en de standaardafwijking σ willen inschatten., We kunnen door een beetje berekening zien dat:

Hier is e de verwachting, en Var(…) is de variantie. We kunnen het gemiddelde van de verwachtingen E op de derde regel vervangen door de E op de vierde regel waar ε een variabele is met dezelfde verdeling als elk van de eᵢ, omdat de fouten eᵢ identiek verdeeld zijn, en dus hun kwadraten allemaal dezelfde verwachting hebben.

onthoud dat we veronderstelden dat we μ al precies wisten., Dat wil zeggen, de aanhoudende vooringenomenheid in onze instrumenten is een bekende vooringenomenheid, in plaats van een onbekende vooringenomenheid. Dus we kunnen net zo goed corrigeren voor deze afwijking van de vleermuis Door μ af te trekken van al onze ruwe waarnemingen. Dat wil zeggen, we kunnen net zo goed aannemen dat onze fouten al verdeeld zijn met gemiddelde μ = 0. Dit in de vergelijking hierboven stoppen en de vierkantswortel van beide zijden nemen levert dan:

merk op dat de linkerkant bekend lijkt!, Als we de verwachting e van binnen de vierkantswortel verwijderen, is het precies onze formule voor RMSE-vorm eerder. De centrale limietstelling vertelt ons dat naarmate n groter wordt, de variantie van de hoeveelheid Σᵢ (ŷ ŷ — yᵢ)2 / n = Σᵢ (eᵢ)2 / n naar nul moet convergeren. In feite vertelt een scherpere vorm van de centrale limietstelling ons dat zijn variantie zou moeten convergeren naar 0 asymptotisch zoals 1/n. Dit vertelt ons dat Σᵢ (ŷ ŷ — yᵢ)2 / n een goede schatter is voor E = σ2. Maar dan RMSE is een goede schatter voor de standaardafwijking σ van de verdeling van onze fouten!,

we zouden nu ook een verklaring moeten hebben voor de deling door n onder de vierkantswortel in RMSE: het stelt ons in staat om de standaardafwijking σ van de fout te schatten voor een typische enkele waarneming in plaats van een soort “totale fout”. Door te delen door n, houden we deze foutmaat consistent als we van een kleine verzameling observaties naar een grotere verzameling gaan (het wordt gewoon nauwkeuriger als we het aantal observaties verhogen). Om het anders te formuleren, RMSE is een goede manier om de vraag te beantwoorden: “hoe ver moeten we verwachten dat ons model op zijn volgende voorspelling?,”

Aan de som van onze discussie, RMSE is een goede maat om te gebruiken als we willen voor de schatting van de standaardafwijking σ van een typisch waargenomen waarde van ons model voorspelling, in de veronderstelling dat onze empirische data kan worden ontbonden als:

De willekeurige ruis hier kan van alles dat ons model niet vast te leggen (bv., onbekende variabelen die mogelijk van invloed zijn op de waargenomen waarden)., Als de ruis klein is, zoals geschat door RMSE, betekent dit over het algemeen dat ons model goed is in het voorspellen van onze waargenomen gegevens, en als RMSE groot is, betekent dit over het algemeen dat ons model geen rekening houdt met belangrijke kenmerken die aan onze gegevens ten grondslag liggen.

RMSE in Data Science: subtiliteiten van het gebruik van RMSE

in data science heeft RMSE een dubbel doel:

  • als heurist voor opleidingsmodellen
  • om getrainde modellen te evalueren op bruikbaarheid/nauwkeurigheid

Dit roept een belangrijke vraag op: wat betekent het voor RMSE om “klein”te zijn?,

We moeten in de eerste plaats opmerken dat “klein” zal afhangen van onze keuze van eenheden, en van de specifieke toepassing waar we op hopen. 100 inch is een grote fout in het ontwerp van een gebouw, maar 100 nanometer niet. Aan de andere kant is 100 nanometer een kleine fout bij het maken van een IJsblokjesbak, maar misschien een grote fout bij het maken van een geïntegreerde schakeling.

voor trainingsmodellen maakt het niet echt uit welke eenheden we gebruiken, aangezien het enige waar we tijdens de training om geven is het hebben van een heuristische om ons te helpen de fout bij elke iteratie te verminderen., We geven alleen om de relatieve grootte van de fout van de ene stap naar de volgende, niet de absolute grootte van de fout.

maar bij het evalueren van getrainde modellen in data science op bruikbaarheid / nauwkeurigheid, geven we wel om eenheden, omdat we niet alleen proberen te zien of we het beter doen dan de vorige keer: we willen weten of ons model Ons daadwerkelijk kan helpen een praktisch probleem op te lossen. De subtiliteit hier is dat het evalueren of RMSE is voldoende klein of niet zal afhangen van hoe nauwkeurig we nodig hebben ons model te zijn voor onze gegeven toepassing., Er zal hier nooit een wiskundige formule voor komen, omdat het afhangt van dingen als menselijke intenties (“Wat ben je van plan met dit model te doen?”), risicoaversie (“hoeveel schade zou worden veroorzaakt als dit model een slechte voorspelling zou maken?”), etc.

naast eenheden is er nog een andere overweging: “klein” moet ook worden gemeten ten opzichte van het type model dat wordt gebruikt, het aantal datapunten en de geschiedenis van de training die het model heeft doorlopen voordat u het op nauwkeurigheid evalueerde., In het begin klinkt dit misschien contra-intuïtief, maar niet als je je het probleem van over-fitting herinnert.

Er bestaat een risico van over-fitting wanneer het aantal parameters in uw model groot is ten opzichte van het aantal datapunten dat u hebt. Bijvoorbeeld, als we proberen te voorspellen door een echte aantal y als een functie van een andere werkelijke hoeveelheid x, en onze waarnemingen zijn (xᵢ, yᵢ) met x₁ < x₂ < x₃ … , een algemene interpolatie stelling vertelt ons dat er een aantal veelterm f(x) van graad hoogstens n+1 f(xᵢ) = yᵢ voor i = 1, … , n., Dit betekent dat als we ons model kiezen om een graad n+1 polynoom te zijn, door de parameters van ons model (de coëfficiënten van de polynoom) aan te passen, we in staat zouden zijn om RMSE helemaal naar beneden te brengen naar 0. Dit geldt ongeacht wat onze y-waarden zijn. In dit geval vertelt RMSE ons niet echt iets over de nauwkeurigheid van ons onderliggende model: we waren gegarandeerd in staat om parameters te tweaken om RMSE = 0 te krijgen zoals gemeten gemeten op onze bestaande gegevenspunten, ongeacht of er een relatie is tussen de twee echte hoeveelheden.,

maar het is niet alleen wanneer het aantal parameters groter is dan het aantal datapunten dat we problemen kunnen tegenkomen. Zelfs als we niet een absurd buitensporige hoeveelheid parameters hebben, kan het zijn dat algemene wiskundige principes samen met milde achtergrondaannames op onze gegevens ons met een grote waarschijnlijkheid garanderen dat we door het aanpassen van de parameters in ons model de RMSE onder een bepaalde drempel kunnen brengen. Als we ons in zo ‘ n situatie bevinden, dan kan RMSE die onder deze drempel ligt misschien niets zinnigs zeggen over de voorspellende kracht van ons model.,

als we wilden denken als een statisticus, de vraag die we zouden stellen is niet ” Is de RMSE van ons opgeleide model klein?”maar eerder,” Wat is de kans dat de RMSE van ons getrainde model op dergelijke – en-dergelijke set van observaties zou zo klein door toevallige toeval?”

dit soort vragen worden een beetje ingewikkeld (je moet eigenlijk statistieken doen), maar hopelijk krijgen jullie allemaal het beeld van waarom er geen vooraf bepaalde drempel is voor “klein genoeg RMSE”, zo makkelijk als dat ons leven zou maken.

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *