El análisis de componentes principales, o PCA, es un procedimiento estadístico que permite resumir el contenido de la información en grandes tablas de datos mediante un conjunto más pequeño de» índices resumidos » que se pueden visualizar y analizar más fácilmente. Los datos subyacentes pueden ser mediciones que describan las propiedades de muestras de producción, compuestos químicos o reacciones, puntos de tiempo de proceso de un proceso continuo, lotes de un proceso por lotes, individuos biológicos o ensayos de un protocolo DOE, por ejemplo.,
Este artículo está publicado en nuestro Blog de Sartorius.
El uso de PCA puede ayudar a identificar correlaciones entre puntos de datos, como si existe una correlación entre el consumo de alimentos como pescado congelado y pan crujiente en los países nórdicos.
el análisis de componentes principales hoy en día es una de las técnicas estadísticas multivariantes más populares. Ha sido ampliamente utilizado en las áreas de reconocimiento de patrones y procesamiento de señales y es un método estadístico bajo el amplio título de análisis factorial.,
PCA es el método madre para MVDA
PCA forma la base del análisis multivariado de datos basado en métodos de proyección. El uso más importante de PCA es representar una tabla de datos multivariante como un conjunto más pequeño de variables (índices de resumen) para observar tendencias, saltos, clusters y valores atípicos. Esta visión general puede revelar las relaciones entre las observaciones y las variables, y entre las variables.
la PCA se remonta a Cauchy, pero fue formulada por primera vez en Estadística por Pearson, quien describió el análisis como encontrar «líneas y planos de ajuste más cercano a los sistemas de puntos en el espacio» .,
PCA es una herramienta muy flexible y permite el análisis de conjuntos de datos que pueden contener, por ejemplo, multicolinealidad, valores faltantes, datos categóricos y mediciones imprecisas. El objetivo es extraer la información importante de los datos y expresarla como un conjunto de índices resumidos llamados componentes principales.
estadísticamente, PCA encuentra líneas, planos e hiper-planos en el espacio K-dimensional que aproximan los datos lo mejor posible en el sentido de mínimos cuadrados., Una línea o plano que es la aproximación de mínimos cuadrados de un conjunto de puntos de datos hace que la varianza de las coordenadas en la línea o plano sea lo más grande posible.
PCA crea una visualización de datos que minimiza la varianza residual en el sentido de mínimos cuadrados y maximiza la varianza de las coordenadas de proyección.
cómo funciona el PCA
en un artículo anterior, explicamos por qué es necesario el pretratamiento de datos para el PCA. Ahora, echemos un vistazo a cómo funciona el PCA, usando un enfoque geométrico.,
considere una matriz X con n filas (también conocidas como» observaciones») y K columnas (también conocidas como»variables»). Para esta matriz construimos un espacio variable con tantas dimensiones como variables Hay (ver figura abajo). Cada variable representa un eje de coordenadas. Para cada variable, la longitud se ha estandarizado de acuerdo con un criterio de escala, normalmente escalando a la varianza unitaria. Puedes encontrar más detalles sobre el escalado a la varianza de unidad en la entrada de blog anterior.
Un K-dimensional espacio variable., Para simplificar, solo se muestran tres ejes variables. La» longitud » de cada eje de coordenadas se ha estandarizado de acuerdo con un criterio específico, generalmente la escala de varianza unitaria.
en el siguiente paso, cada observación (fila) de la matriz X se coloca en el espacio variable K-dimensional. En consecuencia, las filas de la tabla de datos forman un enjambre de puntos en este espacio.
Las observaciones (filas) en la matriz de datos X puede ser entendido como un enjambre de puntos en el espacio de variable (K-espacio).,
centrado medio
a continuación, el centrado medio implica la sustracción de los promedios de las variables de los datos. El vector de promedios corresponde a un punto en el espacio K.
En la media de centrado procedimiento, primero calcular la variable de promedios. Este vector de Promedios es interpretable como un punto (aquí en rojo) en el espacio. El punto está situado en el centro del enjambre de puntos (en el Centro de gravedad).,
la sustracción de los promedios de los datos corresponde a un re-posicionamiento del sistema de coordenadas, de tal manera que el punto promedio ahora es el origen.
La media de centrado procedimiento corresponde a mover el origen del sistema de coordenadas coincide con el punto medio (en rojo).
el primer componente principal
después de centrar la media y escalar a la varianza unitaria, el conjunto de datos está listo para el cálculo del primer índice de resumen, el primer componente principal (PC1)., Este componente es la línea en el espacio variable K-dimensional que mejor se aproxima a los datos en el sentido de mínimos cuadrados. Esta línea pasa por el punto medio. Cada observación (punto amarillo) ahora se puede proyectar sobre esta línea para obtener un valor de coordenadas a lo largo de la línea PC. Este nuevo valor de coordenadas también se conoce como la puntuación.
El primer componente principal (PC1) es la que mejor representa la forma del punto de enjambre. Representa la dirección de varianza máxima en los datos., Cada observación (punto amarillo) puede proyectarse sobre esta línea para obtener un valor de coordenadas a lo largo de la línea PC. Este valor se conoce como puntuación.
el segundo componente principal
generalmente, un índice de resumen o componente principal es insuficiente para modelar la variación sistemática de un conjunto de datos. Por lo tanto, se calcula un segundo índice de resumen – un segundo componente principal (PC2). El segundo PC también está representado por una línea en el espacio variable K-dimensional, que es ortogonal al primer PC., Esta línea también pasa a través del punto medio, y mejora la aproximación de los datos X tanto como sea posible.
el segundo componente principal (PC2) está orientado de tal manera que refleja la segunda fuente más grande de variación en los datos, mientras que es ortogonal al primer PC. PC2 también pasa a través del punto medio.
dos componentes principales definen un plano de modelo
cuando se han derivado dos componentes principales, juntos definen un lugar, una ventana en el espacio variable K-dimensional., Al proyectar todas las observaciones en el subespacio de baja dimensión y trazar los resultados, es posible visualizar la estructura del conjunto de datos investigado. Los valores de coordenadas de las observaciones en este plano se llaman puntuaciones, y por lo tanto el trazado de una configuración proyectada se conoce como una gráfica de puntuación.
Dos equipos forman un plano. Este plano es una ventana al espacio multidimensional, que se puede visualizar gráficamente. Cada observación puede ser proyectada en este plano, dando una puntuación para cada uno.,
modelar un conjunto de datos
ahora, consideremos cómo se ve esto utilizando un conjunto de datos de alimentos que se consumen comúnmente en diferentes países europeos. La siguiente figura muestra la gráfica de puntuación de los dos primeros componentes principales. Estas puntuaciones se denominan t1 y t2. La gráfica de puntuación es un mapa de 16 países. Los países próximos entre sí tienen perfiles de consumo de alimentos similares, mientras que los que están lejos entre sí son diferentes., Los países nórdicos (Finlandia, Noruega, Dinamarca y Suecia) se encuentran juntos en la esquina superior derecha, lo que representa un grupo de naciones con cierta similitud en el consumo de alimentos. Bélgica y Alemania están cerca del centro (origen) de la parcela, lo que indica que tienen propiedades promedio.
la gráfica de puntuación PCA de los dos primeros PC de un conjunto de datos sobre perfiles de consumo de alimentos. Esto proporciona un mapa de cómo los países se relacionan entre sí. El primer componente explica el 32% de la variación, y el segundo el 19%., Coloreado por Ubicación Geográfica (latitud) de la capital respectiva.
¿cómo interpretar el gráfico de puntuación
en un modelo de PCA con dos componentes, es decir, un plano en el espacio K, qué variables (provisiones de alimentos) son responsables de los patrones observados entre las observaciones (países)? Nos gustaría saber qué variables son influyentes, y también cómo se correlacionan las variables. Este conocimiento viene dado por las cargas de los componentes principales (gráfico a continuación). Estos vectores de carga se llaman p1 y p2.,
La siguiente figura muestra las relaciones entre las 20 variables al mismo tiempo. Las Variables que aportan información similar se agrupan, es decir, están correlacionadas. El pan crujiente (crips_br) y el pescado congelado (Fro_Fish) son ejemplos de dos variables que están correlacionadas positivamente. Cuando el valor numérico de una variable aumenta o disminuye, el valor numérico de la otra variable tiene una tendencia a cambiar de la misma manera.,
cuando las variables se correlacionan negativamente («inversamente»), se colocan en lados opuestos del origen de la gráfica, en cuadrantes diagonalmente 0puestos. Por ejemplo, las variables ajo y edulcorante están inversamente correlacionadas, lo que significa que cuando el ajo aumenta, el edulcorante disminuye, y viceversa.
gráfico de carga de PCA de los dos primeros componentes principales (p2 vs p1) comparando los alimentos consumidos.,
si dos variables están correlacionadas positivamente, cuando el valor numérico de una variable aumenta o disminuye, el valor numérico de la otra variable tiene una tendencia a cambiar de la misma manera.
Además, la distancia al origen, también transmite información. Cuanto más lejos del origen de la parcela se encuentra una variable, más fuerte es el impacto que la variable tiene en el modelo. Esto significa, por ejemplo, que las variables pan crujiente (Crisp_br), pescado congelado (Fro_Fish), verduras congeladas (Fro_Veg) y ajo (Garlic) separan a los cuatro países nórdicos de los demás., Los cuatro países nórdicos se caracterizan por tener valores altos (alto consumo) de las tres primeras disposiciones, y bajo consumo de ajo. Además, la interpretación del modelo sugiere que países como Italia, Portugal, España y, en cierta medida, Austria tienen un alto consumo de ajo y un bajo consumo de edulcorante, sopa en conserva (Ti_soup) y fruta en conserva (Ti_Fruit).
geométricamente, las cargas de componentes principales expresan la orientación del plano modelo en el espacio variable K-dimensional., La dirección de PC1 en relación con las variables originales Está dada por el coseno de los ángulos a1, a2 y A3. Estos valores indican cómo las variables originales x1, x2 y x3 «cargan» en (lo que significa que contribuyen a) PC1. Por lo tanto, se les llama cargas.
el segundo conjunto de coeficientes de carga expresa la dirección de PC2 en relación con las variables originales. Por lo tanto, dados los dos PCs y las tres variables ORIGINALES, se necesitan seis valores de carga (coseno de ángulos) para especificar cómo se posiciona el plano modelo en el espacio K.,
Las cargas de componentes principales descubren cómo se inserta el plano modelo PCA en el espacio variable. Las cargas se utilizan para interpretar el significado de las partituras.
¿quieres probarlo?
descargue una prueba gratuita
volver al resumen del Blog