Welcome to Our Website

¿qué significa realmente RMSE?

el Error cuadrático medio de raíz (RMSE) es una forma estándar de medir el error de un modelo en la predicción de Datos Cuantitativos. Formalmente se define de la siguiente manera:

Vamos a tratar de explorar el por qué de esta medida de error tiene sentido desde una perspectiva matemática., Ignorando la división por n bajo la raíz cuadrada, lo primero que podemos notar es un parecido con la fórmula para la distancia euclidiana entre dos vectores en ℝⁿ:

esto nos dice heurísticamente que RMSE puede ser considerado como algún tipo de distancia (normalizada) entre el vector de valores predichos y el vector de valores observados.

Pero ¿por qué estamos dividiendo por n debajo de la raíz cuadrada aquí?, Si mantenemos n (El número de observaciones) fijo, todo lo que hace es volver a escalar la distancia euclidiana por un factor de √(1/n). Es un poco difícil ver por qué esto es lo correcto, así que profundicemos un poco más.,

Imagine que nuestros valores observados se determinan agregando «errores» aleatorios a cada uno de los valores predichos, de la siguiente manera:

estos errores, considerados como variables aleatorias, podrían tener una distribución gaussiana con μ media y desviación estándar σ, pero cualquier otra distribución con un PDF (función de densidad de probabilidad) integrable en cuadrados también funcionaría., Queremos pensar en quantity como una cantidad física subyacente, como la distancia exacta de Marte al sol en un punto particular en el tiempo. Nuestra cantidad observada y be sería entonces la distancia de Marte al sol a medida que la medimos, con algunos errores provenientes de la calibración incorrecta de nuestros telescopios y el ruido de medición de la interferencia atmosférica.,

(NO A ESCALA)

La media µ de la distribución de nuestros errores correspondería a una persistente sesgo proveniente de mala calibración, mientras que la desviación estándar σ correspondería a la cantidad de ruido en la medición. Imagine ahora que conocemos la media μ de la distribución de nuestros errores exactamente y nos gustaría estimar la desviación estándar σ., Podemos ver a través de un poco de cálculo que:

Aquí E es la expectativa, y Var(…) es la varianza. Podemos reemplazar el promedio de las expectativas E en la tercera línea con la E en la cuarta línea donde ε es una variable con la misma distribución que cada uno de los eᵢ, porque los errores e are están distribuidos idénticamente, y por lo tanto sus cuadrados todos tienen la misma expectativa.

recuerde que asumimos que ya sabíamos μ exactamente., Es decir, el sesgo persistente en nuestros instrumentos es un sesgo conocido, en lugar de un sesgo desconocido. Así que también podríamos corregir este sesgo desde el principio restando μ de todas nuestras observaciones en bruto. Es decir, también podríamos suponer que nuestros errores ya están distribuidos con la media μ = 0. Enchufar esto en la ecuación anterior y tomando la raíz cuadrada de ambos lados, a continuación, se obtiene:

Observe el lado izquierdo se ve familiar!, Si eliminamos la expectativa E desde el interior de la raíz cuadrada, es exactamente nuestra fórmula para la forma RMSE antes. El teorema del límite central nos dice que a medida que n se hace más grande, la varianza de la cantidad σ σ (σ — y.) 2 / n = σ σ (e.) 2 / n debería converger a cero. De hecho, una forma más aguda del teorema del límite central nos dice que su varianza debería converger a 0 asintóticamente como 1 / n. esto nos dice Que σ 2 (σ — y.) 2 / n es un buen estimador para e = σ2. Pero entonces RMSE es un buen estimador para la desviación estándar σ de la distribución de nuestros errores!,

ahora también deberíamos tener una explicación para la división por n bajo la raíz cuadrada en RMSE: nos permite estimar la desviación estándar σ del error para una observación única típica en lugar de algún tipo de «error total». Al dividir por n, mantenemos esta medida de error consistente a medida que pasamos de una pequeña colección de observaciones a una colección más grande (solo se vuelve más precisa a medida que aumentamos el número de observaciones). Para expresarlo de otra manera, RMSE es una buena manera de responder a la pregunta: «¿Qué tan lejos debemos esperar que nuestro modelo esté en su próxima predicción?,»

Para resumir nuestra discusión, RMSE es una buena medida para utilizar si queremos estimar la desviación estándar σ de un típico valor observado de nuestro modelo de predicción, suponiendo que nuestros datos observados se puede descomponer como:

El ruido aleatorio aquí puede ser cualquier cosa que nuestro modelo no captura (por ejemplo, variables desconocidas que podrían influir en los valores observados)., Si el ruido es pequeño, según lo estimado por RMSE, esto generalmente significa que nuestro modelo es bueno para predecir nuestros datos observados, y si RMSE es grande, esto generalmente significa que nuestro modelo no tiene en cuenta las características importantes subyacentes a nuestros datos.

RMSE en Ciencia de datos: sutilezas del uso de RMSE

en ciencia de datos, RMSE tiene un doble propósito:

  • servir como heurística para modelos de entrenamiento
  • Evaluar modelos entrenados para la utilidad / precisión

esto plantea una pregunta importante: ¿qué significa para RMSE ser «pequeño»?,

debemos tener en cuenta en primer lugar que «pequeño» dependerá de nuestra elección de unidades y de la aplicación específica que esperamos. 100 pulgadas es un gran error en el diseño de un edificio, pero 100 nanómetros no lo es. Por otro lado, 100 nanómetros es un pequeño error en la fabricación de una bandeja de cubitos de hielo, pero tal vez un gran error en la fabricación de un circuito integrado.

para los modelos de entrenamiento, realmente no importa qué unidades estamos utilizando, ya que todo lo que nos importa durante el entrenamiento es tener una heurística que nos ayude a disminuir el error con cada iteración., Solo nos importa el tamaño relativo del error de un paso a otro, no el tamaño absoluto del error.

pero al evaluar modelos entrenados en ciencia de datos para su utilidad / precisión, nos preocupamos por las unidades, porque no solo estamos tratando de ver si lo estamos haciendo mejor que la última vez: queremos saber si nuestro modelo realmente puede ayudarnos a resolver un problema práctico. La sutileza aquí es que evaluar si RMSE es lo suficientemente pequeño o no dependerá de cuán preciso necesitamos que sea nuestro modelo para nuestra aplicación dada., Nunca va a haber una fórmula matemática para esto, porque depende de cosas como las intenciones humanas («¿Qué pretendes hacer con este modelo?»), aversión al riesgo («How much harm would be caused be if this model made a bad prediction?”), sucesivamente.

además de las unidades, también hay otra consideración: «pequeño» también debe medirse en relación con el tipo de modelo que se utiliza, el número de puntos de datos y el historial de entrenamiento que el modelo pasó antes de evaluarlo para su precisión., Al principio, esto puede sonar contra-intuitivo, pero no cuando recuerdas el problema del ajuste excesivo.

existe el riesgo de sobreajuste cuando el número de parámetros en su modelo es grande en relación con el número de puntos de datos que tiene. Por ejemplo, si estamos tratando de predecir una cantidad real y como una función de la otra cantidad real x, y nuestras observaciones son (xᵢ, yᵢ) con x₁ < x₂ < x₃ … , un general de interpolación teorema nos dice que hay algunos polinomio f(x) de grado a lo más n+1 con f(xᵢ) = yᵢ para i = 1, … , n., Esto significa que si elegimos nuestro modelo para ser un polinomio DE GRADO n+1, ajustando los parámetros de nuestro modelo (los coeficientes del polinomio), podríamos reducir RMSE hasta 0. Esto es cierto independientemente de lo que nuestros valores y son. En este caso, RMSE realmente no nos dice nada sobre la precisión de nuestro modelo subyacente: se nos garantizó que podríamos modificar los parámetros para obtener RMSE = 0 medido en nuestros puntos de datos existentes, independientemente de si existe alguna relación entre las dos cantidades reales.,

pero no es solo cuando el número de parámetros excede el número de puntos de datos que podríamos tener problemas. Incluso si no tenemos una cantidad absurdamente excesiva de parámetros, puede ser que los principios matemáticos generales junto con suposiciones de fondo leves en nuestros datos nos garanticen una alta probabilidad de que al ajustar los parámetros en nuestro modelo, podamos llevar el RMSE por debajo de un cierto umbral. Si estamos en tal situación, entonces RMSE estar por debajo de este umbral puede no decir nada significativo sobre el poder predictivo de nuestro modelo.,

si quisiéramos pensar como un estadístico, la pregunta que estaríamos haciendo no es » ¿es pequeña la RMSE de nuestro modelo entrenado?»sino más bien,» ¿cuál es la probabilidad de que el RMSE de nuestro modelo entrenado en tal y tal conjunto de observaciones sea tan pequeño por casualidad?»

este tipo de preguntas se complican un poco (en realidad tienes que Hacer estadísticas), pero espero que todos se hagan una idea de por qué no hay un umbral predeterminado para» lo suficientemente pequeño RMSE», tan fácil como eso haría que nuestras vidas.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *