Welcome to Our Website

co tak naprawdę oznacza RMSE?

średni błąd Kwadratowy (Rmse) jest standardowym sposobem pomiaru błędu modelu w przewidywaniu danych ilościowych. Formalnie jest on zdefiniowany w następujący sposób:

spróbujmy zbadać, dlaczego ta miara błędu ma sens z matematycznego punktu widzenia., Pomijając dzielenie przez n pod pierwiastkiem kwadratowym, pierwszą rzeczą, jaką możemy zauważyć, jest podobieństwo do wzoru na odległość euklidesową między dwoma wektorami w ℝⁿ:

To mówi nam heurystycznie, że rmse można traktować jako pewien rodzaj (znormalizowanej) odległości między wektorem przewidywanych wartości a wektorem obserwowanych wartości.

ale dlaczego dzielimy przez n pod pierwiastkiem kwadratowym?, Jeśli zachowamy n (liczbę obserwacji) stałą, wszystko, co robi, to przeskaluje odległość euklidesową o współczynnik √(1 / n). To trochę trudne, aby zobaczyć, dlaczego jest to właściwa rzecz do zrobienia, więc zagłębimy się nieco głębiej.,

wyobraź sobie, że nasze obserwowane wartości są określane przez dodanie losowych „błędów” do każdej z przewidywanych wartości, w następujący sposób:

te błędy, uważane za Zmienne losowe, mogą mieć rozkład Gaussa ze średnią μ i odchyleniem standardowym σ, ale każdy inny rozkład z kwadratową integrowalną PDF (funkcja gęstości prawdopodobieństwa) będzie również działać., Chcemy myśleć o ŷᵢ jako podstawowej ilości fizycznej, takiej jak dokładna odległość od Marsa do Słońca w określonym punkcie w czasie. Nasza obserwowana ilość yᵢ byłaby wtedy odległością od Marsa do Słońca podczas pomiaru, z pewnymi błędami wynikającymi z niewłaściwej kalibracji naszych teleskopów i szumu pomiarowego wynikającego z zakłóceń atmosferycznych.,

kala)

średnia μ rozkładu naszych błędów odpowiadałaby uporczywemu odchyleniu wynikającemu z niewłaściwej kalibracji, podczas gdy odchylenie standardowe σ odpowiadałoby ilości szumu pomiarowego. Wyobraźmy sobie teraz, że znamy średnią μ rozkładu dla naszych błędów dokładnie i chcielibyśmy oszacować odchylenie standardowe σ., Możemy zobaczyć przez trochę obliczeń, że:

tutaj E jest oczekiwaniem, a Var(…) jest wariancją. Możemy zastąpić średnią oczekiwań E na trzeciej linii E na czwartej linii, gdzie ε jest zmienną o takim samym rozkładzie jak każdy z eᵢ, ponieważ błędy eᵢ są identycznie rozłożone, a więc ich kwadraty mają takie same oczekiwania.

pamiętaj, że założyliśmy, że znamy się już dokładnie., Oznacza to, że trwałe nastawienie w naszych instrumentach jest znanym nastawieniem, a nie nieznanym nastawieniem. Więc równie dobrze możemy skorygować to odchylenie od nietoperza, odejmując μ od wszystkich naszych surowych obserwacji. Oznacza to, że równie dobrze możemy przypuszczać, że nasze błędy są już rozłożone ze średnią μ = 0. Podłączenie tego równania do powyższego równania i pobranie pierwiastka kwadratowego obu stron daje:

zwróć uwagę, że lewa strona wygląda znajomo!, Jeśli usunęliśmy oczekiwanie E z wnętrza pierwiastka kwadratowego, to jest to dokładnie nasz wzór na postać RMSE przed. Centralne twierdzenie graniczne mówi nam, że gdy n jest większe, wariancja wielkości Σᵢ (ŷ ŷ — yᵢ)2 / n = Σᵢ (eᵢ) 2 ² N powinna być zbieżna do zera. W rzeczywistości ostrzejsza forma centralnego twierdzenia granicznego mówi nam, że jego wariancja powinna być zbieżna do 0 asymptotycznie jak 1 / n. to mówi nam, że Σᵢ (ŷ ŷ — yᵢ)2 / n jest dobrym estymatorem dla e = σ2. Ale wtedy RMSE jest dobrym estymatorem odchylenia standardowego σ rozkładu naszych błędów!,

powinniśmy mieć teraz Wyjaśnienie podziału przez n pod pierwiastkiem kwadratowym w RMSE: pozwala nam oszacować odchylenie standardowe σ błędu dla typowej pojedynczej obserwacji, a nie jakiegoś rodzaju „błędu całkowitego”. Dzieląc przez n, zachowujemy tę miarę błędu spójną, gdy przechodzimy z małego zbioru obserwacji do większego zbioru (staje się on po prostu dokładniejszy, gdy zwiększamy liczbę obserwacji). Mówiąc inaczej, RMSE jest dobrym sposobem na odpowiedź na pytanie: „jak daleko powinniśmy się spodziewać, że nasz model będzie w następnej prognozie?,”

podsumowując naszą dyskusję, RMSE jest dobrym środkiem do wykorzystania, jeśli chcemy oszacować odchylenie standardowe σ typowej obserwowanej wartości z prognozy naszego modelu, zakładając, że nasze obserwowane dane mogą być rozłożone jako:

losowym szumem może być wszystko, czego nasz model nie wychwytuje (np. nieznane zmienne, które mogą mieć wpływ na obserwowane wartości)., Jeśli szum jest mały, jak szacuje RMSE, oznacza to, że nasz model jest dobry w przewidywaniu naszych obserwowanych danych, a jeśli rmse jest duży, oznacza to, że nasz model nie uwzględnia ważnych cech leżących u podstaw naszych danych.

RMSE w Data Science: subtelności korzystania z rmse

w data science, RMSE ma podwójny cel:

  • służyć jako heurystyka dla modeli treningowych
  • Oceniać trenowane modele pod kątem przydatności / dokładności

rodzi to ważne pytanie: co oznacza, że RMSE jest „mały”?,

należy przede wszystkim zauważyć, że „mały” będzie zależał od naszego wyboru jednostek i od konkretnego zastosowania, na które liczymy. 100 cali to duży błąd w projekcie budynku, ale 100 nanometrów nie. Z drugiej strony, 100 nanometrów to mały błąd w wytwarzaniu tacy na kostki lodu, ale być może duży błąd w wytwarzaniu układu scalonego.

w przypadku modeli treningowych nie ma znaczenia, jakich jednostek używamy, ponieważ jedyne, na czym nam zależy podczas treningu, to posiadanie heurystyki, która pomoże nam zmniejszyć błąd przy każdej iteracji., Dbamy tylko o względny rozmiar błędu z jednego kroku na drugi, a nie absolutny rozmiar błędu.

ale oceniając trenowane modele w data science pod kątem przydatności / dokładności , dbamy o jednostki, ponieważ nie tylko staramy się sprawdzić, czy radzimy sobie lepiej niż ostatnio: chcemy wiedzieć, czy nasz model może rzeczywiście pomóc nam rozwiązać praktyczny problem. Subtelność polega na tym, że ocena, czy RMSE jest wystarczająco mała, czy nie, będzie zależeć od tego, jak dokładny jest nasz model dla danego zastosowania., Nigdy nie będzie na to formuły matematycznej, ponieważ zależy to od takich rzeczy, jak ludzkie intencje („co zamierzasz zrobić z tym modelem?”), awersja do ryzyka („ile szkody byłoby spowodowane, gdyby ten model źle przewidywał?”), itp.

oprócz jednostek, istnieje również inna kwestia: „małe” musi być mierzone w zależności od rodzaju używanego modelu, liczby punktów danych i historii treningu, przez który przeszedł model, zanim został oceniony pod kątem dokładności., Na początku może to brzmieć niezgodnie z intuicją, ale nie wtedy, gdy pamiętasz problem nadmiernego dopasowania.

istnieje ryzyko nadmiernego dopasowania, gdy liczba parametrów w modelu jest duża w stosunku do liczby punktów danych, które posiadasz. Na przykład, jeśli staramy się przewidzieć jedno rzeczywista liczba Y jako funkcję innego majątku liczbę X, i nasze obserwacje (xᵢ, yᵢ) z x₁ < x₂ < x₃ … , wspólną interpolacji twierdzenie mówi nam, jest jakiś wielomian F(x) stopnia nie więcej niż N+1 F(xᵢ) = yᵢ dla i = 1, … , n., Oznacza to, że jeśli wybierzemy nasz model jako wielomian stopnia n + 1, zmieniając parametry naszego modelu (współczynniki wielomianu), będziemy w stanie sprowadzić RMSE aż do 0. Jest to prawdą niezależnie od tego, jakie są nasze wartości y. W tym przypadku RMSE tak naprawdę nie mówi nam nic o dokładności naszego bazowego modelu: mieliśmy gwarancję, że będziemy w stanie dostosować parametry, aby uzyskać RMSE = 0 jako mierzone w naszych istniejących punktach danych, niezależnie od tego, czy istnieje jakikolwiek związek między dwoma rzeczywistymi wielkościami w ogóle.,

ale nie tylko wtedy, gdy liczba parametrów przekracza liczbę punktów danych, możemy napotkać problemy. Nawet jeśli nie mamy absurdalnie nadmiernej ilości parametrów, może się zdarzyć, że ogólne zasady matematyczne wraz z łagodnymi założeniami tła dotyczącymi naszych danych gwarantują nam z dużym prawdopodobieństwem, że poprawiając parametry w naszym modelu, możemy sprowadzić rmse poniżej pewnego progu. Jeśli znajdujemy się w takiej sytuacji, to rmse będąc poniżej tego progu może nie mówić nic sensownego o mocy predykcyjnej naszego modelu.,

gdybyśmy chcieli myśleć jak statystyk, pytanie, które byśmy zadali, nie brzmiało „Czy RMSE naszego wyszkolonego modelu jest mały?”ale raczej,” jakie jest prawdopodobieństwo, że RMSE naszego wyszkolonego modelu na taki-a-taki zbiór obserwacji byłby tak mały przez przypadek?”

tego typu pytania są trochę skomplikowane( trzeba zrobić statystyki), ale mam nadzieję, że wszyscy zrozumiecie, dlaczego nie ma z góry ustalonego progu dla „wystarczająco małego RMSE”, tak łatwego, jak to uczyniłoby nasze życie.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *