Root Mean Square Error (RMSE) is een standaard manier om de fout van een model te meten in het voorspellen van kwantitatieve gegevens. Formeel is als volgt gedefinieerd:
Laten we proberen te ontdekken waarom deze maatregel van de fout zinvol vanuit een wiskundig perspectief., Het negeren van de deling door n onder de wortel, het eerste wat we zien is een gelijkenis met de formule voor de Euclidische afstand tussen twee vectoren in ℝⁿ:
Dit vertelt ons heuristisch dat RMSE kan worden beschouwd als een soort van (genormaliseerde) afstand tussen de vector van de voorspelde waarden en de vector van de waargenomen waarden.
maar waarom delen we hier door n onder de vierkantswortel?, Als we n (het aantal waarnemingen) vast houden, is het enige wat het doet, de Euclidische afstand herschalen met een factor √(1 / n). Het is een beetje lastig om te zien waarom dit het juiste is om te doen, dus laten we er wat dieper op ingaan.,
Stel je voor dat onze waargenomen waarden worden bepaald door het toevoegen van willekeurige “fouten” die aan elk van de voorspelde waarden, als volgt:
Deze fouten, gedacht als random variabelen, misschien hebben Gaussische distributie met gemiddelde μ en standaardafwijking σ, maar een andere verdeling met een i-integreerbare PDF (kansmassa) ook zou werken., We willen ŷ zien als een onderliggende fysische grootheid, zoals de exacte afstand van Mars tot de zon op een bepaald punt in de tijd. Onze waargenomen hoeveelheid yᵢ zou dan de afstand van Mars tot de zon zijn als we die meten, met enkele fouten die voortkomen uit verkeerde kalibratie van onze telescopen en het meten van ruis door atmosferische interferentie.,