Welcome to Our Website

Was bedeutet RMSE wirklich bedeuten?

Root Mean Square Error (RMSE) ist eine Standardmethode zur Messung des Fehlers eines Modells bei der Vorhersage quantitativer Daten. Formal ist es wie folgt definiert:

Versuchen wir herauszufinden, warum dieses Fehlermaß aus mathematischer Sicht sinnvoll ist., Wenn wir die Division durch n unter der Quadratwurzel ignorieren, können wir als erstes eine Ähnlichkeit mit der Formel für den euklidischen Abstand zwischen zwei Vektoren in ℝⁿ feststellen:

Dies sagt uns heuristisch, dass RMSE als eine Art (normalisierter) Abstand zwischen dem Vektor der vorhergesagten Werte und dem Vektor der beobachteten Werte angesehen werden kann.

Aber warum teilen wir uns hier unter der Quadratwurzel durch n?, Wenn wir n(die Anzahl der Beobachtungen) festhalten, skaliert es den euklidischen Abstand nur noch um den Faktor √(1/n). Es ist ein bisschen schwierig zu sehen, warum dies das Richtige ist, also lassen Sie uns etwas tiefer eintauchen.,

Stellen Sie sich vor, unsere beobachteten Werte werden durch Hinzufügen zufälliger „Fehler“ zu jedem der vorhergesagten Werte wie folgt bestimmt:

Diese Fehler, die als Zufallsvariablen betrachtet werden, könnten eine gaußsche Verteilung mit Mittelwert μ und Standardabweichung σ haben, aber jede andere Verteilung mit einem quadratisch integrierbaren PDF (Wahrscheinlichkeitsdichtefunktion) würde auch funktionieren., Wir wollen uns ŷᵢ als zugrunde liegende physikalische Größe vorstellen, wie die genaue Entfernung vom Mars zur Sonne zu einem bestimmten Zeitpunkt. Unsere beobachtete Menge yᵢ wäre dann die Entfernung vom Mars zur Sonne, während wir sie messen, wobei einige Fehler auf eine Fehlkalibrierung unserer Teleskope und Messgeräusche durch atmosphärische Störungen zurückzuführen sind.,

(NICHT ZU SKALIEREN)

Der Mittelwert μ der Verteilung unserer Fehler würde einer anhaltenden Verzerrung durch Fehlkalibrierung entsprechen, während die Standardabweichung σ der Menge des Messrauschens entsprechen würde. Stellen Sie sich nun vor, wir kennen den Mittelwert μ der Verteilung für unsere Fehler genau und möchten die Standardabweichung σ schätzen., Können wir sehen, durch einen bit-Berechnung, die:

Hier ist E die Erwartung, und Var(…) ist die Varianz. Wir können den Durchschnitt der Erwartungen E in der dritten Zeile durch das E in der vierten Zeile ersetzen, wobei ε eine Variable mit der gleichen Verteilung wie jedes der Eᵢ ist, da die Fehler eᵢ identisch verteilt sind und somit ihre Quadrate alle die gleiche Erwartung haben.

Denken Sie daran, dass wir angenommen haben, dass wir es bereits genau wussten., Das heißt, die anhaltende Voreingenommenheit in unseren Instrumenten ist eher eine bekannte als eine unbekannte Voreingenommenheit. Wir könnten diese Verzerrung also auch sofort korrigieren, indem wir μ von all unseren rohen Beobachtungen subtrahieren. Das heißt, wir könnten genauso gut annehmen, dass unsere Fehler bereits mit dem Mittelwert μ = 0 verteilt sind. Sie dieses in die obige Gleichung und die Quadratwurzel von beiden Seiten, dann ergibt sich:

Hinweis der linken Seite sieht vertraut!, Wenn wir die Erwartung E aus der Quadratwurzel entfernt haben, ist es genau unsere Formel für RMSE Form vor. Der zentrale Grenzwertsatz sagt uns, dass, wenn n größer wird, die Varianz der Größe σᵢ (ŷᵢ — yᵢ)2 / n = σᵢ (eᵢ)2 / n auf Null konvergieren sollte. Tatsächlich sagt uns eine schärfere Form des zentralen Grenzwertsatzes, dass seine Varianz asymptotisch wie 1/n zu 0 konvergieren sollte n. Dies sagt uns, dass σᵢ (ŷᵢ — yᵢ)2 / n ein guter Schätzer für E = σ2 ist. Aber dann RMSE ist ein guter Schätzer für die Standardabweichung σ der Verteilung unserer Fehler!,

Wir sollten jetzt auch eine Erklärung für die Division durch n unter der Quadratwurzel in RMSE haben: Es ermöglicht uns, die Standardabweichung σ des Fehlers für eine typische Einzelbeobachtung und nicht für eine Art „Gesamtfehler“zu schätzen. Durch Dividieren durch n halten wir dieses Fehlermaß konsistent, wenn wir von einer kleinen Sammlung von Beobachtungen zu einer größeren Sammlung übergehen (es wird nur genauer, wenn wir die Anzahl der Beobachtungen erhöhen). Um es anders auszudrücken, ist RMSE eine gute Möglichkeit, die Frage zu beantworten: „Wie weit sollten wir von unserem Modell bei seiner nächsten Vorhersage erwarten?,“

Um unsere Diskussion zusammenzufassen, ist RMSE ein gutes Maß, wenn wir die Standardabweichung σ eines typischen beobachteten Werts von der Vorhersage unseres Modells schätzen möchten, vorausgesetzt, unsere beobachteten Daten können wie folgt zerlegt werden:

div>

Das zufällige Rauschen hier könnte alles sein, was unser Modell nicht erfasst (z. B. unbekannte Variablen, die die beobachteten Werte beeinflussen könnten)., Wenn das Rauschen klein ist, wie von RMSE geschätzt, bedeutet dies im Allgemeinen, dass unser Modell unsere beobachteten Daten gut vorhersagen kann, und wenn RMSE groß ist, bedeutet dies im Allgemeinen, dass unser Modell wichtige Merkmale, die unseren Daten zugrunde liegen, nicht berücksichtigt.

RMSE in Data Science: Feinheiten der Verwendung von RMSE

In Data Science hat RMSE einen doppelten Zweck:

  • Als Heuristik für Trainingsmodelle zu dienen
  • Trainierte Modelle auf Nützlichkeit / Genauigkeit zu bewerten

Dies wirft eine wichtige Frage auf: Was bedeutet es für RMSE, „klein“ zu sein?,

Wir sollten in erster Linie beachten, dass „klein“ von unserer Wahl der Einheiten und von der spezifischen Anwendung abhängt, auf die wir hoffen. 100 zoll ist ein großer Fehler in einem Gebäude Design, aber 100 nanometer ist es nicht. Auf der anderen Seite sind 100 Nanometer ein kleiner Fehler bei der Herstellung einer Eiswürfelschale, aber vielleicht ein großer Fehler bei der Herstellung einer integrierten Schaltung.

Bei Trainingsmodellen spielt es keine Rolle, welche Einheiten wir verwenden, da uns während des Trainings nur eine Heuristik interessiert, die uns hilft, den Fehler bei jeder Iteration zu verringern., Wir kümmern uns nur um die relative Größe des Fehlers von einem Schritt zum nächsten, nicht um die absolute Größe des Fehlers.

Aber bei der Bewertung von trainierten Modellen in der Datenwissenschaft auf Nützlichkeit / Genauigkeit kümmern wir uns um Einheiten, weil wir nicht nur versuchen zu sehen, ob es uns besser geht als beim letzten Mal: Wir wollen wissen, ob unser Modell uns tatsächlich helfen kann, ein praktisches Problem zu lösen. Die Subtilität hier ist, dass die Bewertung, ob RMSE ausreichend klein ist oder nicht, davon abhängt, wie genau wir unser Modell für unsere gegebene Anwendung benötigen., Es wird niemals eine mathematische Formel dafür geben, weil es von Dingen wie menschlichen Absichten abhängt („Was beabsichtigen Sie mit diesem Modell zu tun?“), risk aversion („Wie viel Schaden verursacht werden würde, wenn dieses Modell hat eine schlechte Prognose?“), usw.

Neben Einheiten gibt es noch eine weitere Überlegung: „Klein“ muss auch gemessen werden, bezogen auf die Art des verwendeten Modells, die Anzahl der Datenpunkte und den Verlauf des Trainings, den das Modell durchlaufen hat, bevor Sie es auf Genauigkeit ausgewertet haben., Zunächst mag dies kontraintuitiv klingen, aber nicht, wenn Sie sich an das Problem der Überanpassung erinnern.

Es besteht die Gefahr einer Überanpassung, wenn die Anzahl der Parameter in Ihrem Modell im Verhältnis zur Anzahl der Datenpunkte, die Sie haben, groß ist. Zum Beispiel, wenn wir versuchen, vorherzusagen, eine echte Menge y als Funktion einer anderen realen Menge x, und unsere Beobachtungen sind (xᵢ, yᵢ) mit x₁ < x₂ < x₃ … , a general interpolation theorem sagt uns, dass es ist einige Polynom f(x) von Grad höchstens n+1 mit f(xᵢ) = yᵢ für i = 1, … , n., Dies bedeutet, wenn wir unser Modell als Polynom des Grades n+1 auswählen würden, indem wir die Parameter unseres Modells (die Koeffizienten des Polynoms) optimieren würden, könnten wir RMSE ganz auf 0 reduzieren. Dies gilt unabhängig davon, was unsere y-Werte. In diesem Fall sagt uns RMSE nichts über die Genauigkeit unseres zugrunde liegenden Modells aus: Es wurde garantiert, dass wir Parameter optimieren konnten, um RMSE = 0 als gemessene Messung an unseren vorhandenen Datenpunkten zu erhalten, unabhängig davon, ob eine Beziehung besteht zwischen den beiden realen Größen überhaupt.,

Aber nicht nur wenn die Anzahl der Parameter die Anzahl der Datenpunkte überschreitet, können Probleme auftreten. Selbst wenn wir keine absurd übermäßige Menge an Parametern haben, kann es sein, dass allgemeine mathematische Prinzipien zusammen mit milden Hintergrundannahmen zu unseren Daten uns mit hoher Wahrscheinlichkeit garantieren, dass wir durch Optimieren der Parameter in unserem Modell die RMSE unter einen bestimmten Schwellenwert bringen können. Wenn wir uns in einer solchen Situation befinden, sagt RMSE, das unter diesem Schwellenwert liegt, möglicherweise nichts Aussagekräftiges über die Vorhersagekraft unseres Modells aus.,

Wenn wir wie ein Statistiker denken wollten, wäre die Frage, die wir stellen würden, nicht „Ist die RMSE unseres trainierten Modells klein?“aber“ Wie hoch ist die Wahrscheinlichkeit, dass die RMSE unseres trainierten Modells auf solch-und-solchen Beobachtungen zufällig so klein wäre?“

Diese Art von Fragen werden etwas kompliziert (Sie müssen tatsächlich Statistiken erstellen), aber hoffentlich erhalten Sie alle ein Bild davon, warum es keine vorgegebene Schwelle für „klein genug RMSE“ gibt, so einfach wie das unser Leben machen würde.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.