Análise principal de componentes, ou PCA, é um procedimento estatístico que lhe permite resumir o conteúdo de informação em grandes tabelas de dados por meio de um conjunto menor de “índices de resumo” que podem ser mais facilmente visualizados e analisados. Os dados subjacentes podem ser medições descrevendo propriedades de amostras de produção, compostos químicos ou reações, pontos de tempo de processo de um processo contínuo, lotes de um processo de lote, indivíduos biológicos ou ensaios de um protocolo DOE, por exemplo.,este artigo é publicado no nosso Blog Sartorius.o uso de PCA pode ajudar a identificar correlações entre os pontos de dados, tais como se existe uma correlação entre o consumo de alimentos como peixe congelado e pão estaladiço nos países nórdicos.
A principal Análise de componentes hoje é uma das técnicas estatísticas multivariadas mais populares. Tem sido amplamente utilizado nas áreas de reconhecimento de padrões e processamento de sinais e é um método estatístico sob o título amplo de análise de fatores.,
PCA é o método mãe para MVDA
PCA forma a base de análise de dados multivariados com base em métodos de projeção. O uso mais importante do APC é representar uma tabela de dados multivariados como um conjunto menor de variáveis (índices de resumo), a fim de observar tendências, saltos, clusters e anómalos. Esta visão geral pode descobrir as relações entre observações e variáveis, e entre as variáveis.
PCA remonta a Cauchy, mas foi formulado pela primeira vez em estatísticas por Pearson, que descreveu a análise como encontrando “linhas e planos de ajuste mais próximo aos sistemas de pontos no espaço” .,
PCA é uma ferramenta muito flexível e permite a análise de conjuntos de dados que podem conter, por exemplo, multicolinearidade, valores em falta, dados categóricos e medições imprecisas. O objetivo é extrair a informação importante dos dados e expressar esta informação como um conjunto de índices de resumo chamados componentes principais.
estatisticamente, PCA encontra linhas, planos e hiper-planos no espaço K-dimensional que aproxima os dados tão bem quanto possível no sentido dos Mínimos Quadrados., Uma linha ou plano que é a aproximação dos mínimos quadrados de um conjunto de pontos de dados torna a variância das coordenadas na linha ou plano tão grande quanto possível.
PCA cria uma visualização de dados que minimiza a variância residual, no mínimo, praças sentido e maximiza a variância da projeção de coordenadas.
como o PCA funciona
em um artigo anterior, explicamos por que os dados de pré-tratamento para o PCA são necessários. Agora, vamos dar uma olhada em como o PCA funciona, usando uma abordagem geométrica.,
considere uma matriz X com linhas N (aka “observações”) e Colunas K (aka “variáveis”). Para esta matriz, construímos um espaço variável com tantas dimensões quanto há variáveis (ver figura abaixo). Cada variável representa um eixo de coordenadas. Para cada variável, o comprimento foi padronizado de acordo com um critério de escala, normalmente por escala para variância de unidade. Você pode encontrar mais detalhes sobre a escala para a variância de unidade no post anterior do blog.
A K-dimensional variable space., Por simplicidade, apenas três eixos variáveis são exibidos. O “comprimento” de cada eixo de coordenadas foi padronizado de acordo com um critério específico, geralmente a escala de variância de unidade.
na próxima etapa, cada observação (linha) da matriz-X é colocada no espaço variável K-dimensional. Consequentemente, as linhas da tabela de dados formam um enxame de pontos neste espaço.
As observações (linhas) da matriz de dados X pode ser entendido como um conjunto de pontos no espaço de variável (K-espaço).,
a concentração média
seguinte, a concentração média envolve a subtracção das médias variáveis a partir dos dados. O vetor de médias corresponde a um ponto no espaço-K.
no procedimento de centralização média, primeiro calcula as médias variáveis. Este vetor de médias é interpretável como um ponto (aqui em vermelho) no espaço. O ponto está situado no meio do enxame de pontos (no centro de gravidade).,
A subtração das médias dos dados corresponde a um re-posicionamento do sistema de coordenadas, de modo que o ponto médio agora é a origem.
A média-centralização procedimento corresponde a mover a origem do sistema de coordenadas, para coincidir com o ponto médio (aqui em vermelho).
O primeiro componente principal
Depois de dizer-centralização e dimensionamento de unidade de desvio, o conjunto de dados está pronto para o cálculo do primeiro índice sintético, o primeiro componente principal (PC1)., Este componente é a linha no espaço variável K-dimensional que melhor se aproxima dos dados no sentido dos Mínimos Quadrados. Esta linha passa pelo ponto médio. Cada observação (ponto amarelo) pode agora ser projetada nesta linha, a fim de obter um valor de coordenada ao longo da linha PC. Este novo valor de coordenadas também é conhecido como a pontuação.
o primeiro componente principal (PC1) é a linha que melhor explica a forma do enxame de pontos. Representa a direção máxima de variância nos dados., Cada observação (ponto amarelo) pode ser projetada nesta linha a fim de obter um valor de coordenada ao longo da linha PC. Este valor é conhecido como uma pontuação.
o segundo componente principal
geralmente, um índice de resumo ou componente principal é insuficiente para modelar a variação sistemática de um conjunto de dados. Assim, calcula – se um segundo índice sintético – uma segunda componente principal (PC2). O segundo PC também é representado por uma linha no espaço variável K-dimensional, que é ortogonal ao primeiro PC., Esta linha também passa pelo ponto médio, e melhora a aproximação dos X-data tanto quanto possível.
A segunda componente principal (PC2) é orientada de tal forma que ele reflita a segunda maior fonte de variação dos dados, sendo ortogonal ao primeiro PC. O PC2 também passa pelo ponto médio.
dois componentes principais definem um plano modelo
quando dois componentes principais foram derivados, eles juntos definem um lugar, uma janela para o espaço variável K-dimensional., Ao projetar todas as observações no sub-espaço de baixa dimensão e plotar os resultados, é possível visualizar a estrutura do conjunto de dados investigado. Os valores de coordenadas das observações neste plano são chamados pontuações, e, portanto, o desenho de tal configuração projetada é conhecido como um gráfico de pontuação.
dois PCs formam um plano. Este plano é uma janela para o espaço multidimensional, que pode ser visualizado graficamente. Cada observação pode ser projetada para este plano, dando uma pontuação para cada.,
modelando um conjunto de dados
Agora, vamos considerar o que isso parece usando um conjunto de dados de alimentos comumente consumidos em diferentes países europeus. A figura abaixo mostra o gráfico de pontuação dos dois primeiros componentes principais. Estas pontuações são chamadas t1 e t2. O gráfico de pontuação é um mapa de 16 países. Os países próximos têm perfis de consumo de alimentos semelhantes, ao passo que os que estão longe uns dos outros são diferentes., Os países nórdicos (Finlândia, Noruega, Dinamarca e Suécia) estão localizados juntos no canto superior direito, representando assim um grupo de nações com alguma semelhança no consumo de alimentos. A Bélgica e a Alemanha estão próximas do centro (origem) da parcela, o que indica que têm propriedades médias.
the PCA score plot of the first two PCs of a data set about food consumption profiles. Isto fornece um mapa de como os países se relacionam uns com os outros. A primeira explica 32% da variação e a segunda 19%., Colorido pela localização geográfica (latitude) da respectiva capital.
como interpretar a parcela de pontuação
num modelo PCA com dois componentes, isto é, um plano no Espaço-K, que variáveis (provisões alimentares) são responsáveis pelos padrões observados entre as observações (países)? Gostaríamos de saber quais variáveis são influentes, e também como as variáveis são correlacionadas. Tal conhecimento é dado pelos principais carregamentos de componentes (gráfico abaixo). Estes vectores de carga são chamados p1 e p2.,
a figura abaixo mostra as relações entre todas as 20 variáveis ao mesmo tempo. Variáveis que contribuem com informações semelhantes são agrupadas, ou seja, elas estão correlacionadas. Crisp bread (crips_br) e fro_fish (fro_fish) são exemplos de duas variáveis que estão positivamente correlacionadas. Quando o valor numérico de uma variável aumenta ou diminui, o valor numérico da outra variável tem uma tendência a mudar da mesma forma.,quando as variáveis estão correlacionadas negativamente (“inversamente”), elas são posicionadas em lados opostos da origem da parcela, em quadrantes diagonalmente 0postos. Por exemplo, as variáveis alho e adoçante estão inversamente correlacionadas, o que significa que quando o alho aumenta, o adoçante diminui e vice-versa.
p > PCA loading plot of the first two principal components (p2 vs p1) comparing foods consumed.,
Se duas variáveis estão positivamente correlacionados, quando o valor numérico de uma variável aumenta ou diminui o valor numérico da variável tem uma tendência a mudar da mesma forma.além disso, a distância à origem também transmite informação. Quanto mais longe da origem da parcela uma variável se encontra, mais forte é o impacto que a variável tem no modelo. Isso significa, por exemplo, que as variáveis de pão torrado (Crisp_br), de peixes, congelados (Fro_Fish), legumes congelados (Fro_Veg) e o alho (Alho) separar os quatro países dos outros., Os quatro países nórdicos são caracterizados como tendo altos valores (alto consumo) das três provisões anteriores, e baixo consumo de alho. Além disso, o modelo de interpretação sugere que países como a Itália, Portugal, Espanha e, em certa medida, a Áustria têm um elevado consumo de alho e um baixo consumo de adoçante, sopa enlatada (Ti_soup) e fruta enlatada (Ti_Fruit).geometricamente, os principais carregamentos do componente expressam a orientação do plano do modelo no espaço variável K-dimensional., A direção do PC1 em relação às variáveis originais é dada pelo cosseno dos ângulos a1, a2 e a3. Estes valores indicam como as variáveis originais x1, x2 e x3 “carga” em (significando contribuir para) PC1. Por isso, eles são chamados de carregamentos.
o segundo conjunto de coeficientes de carga expressa a direção do PC2 em relação às variáveis originais. Assim, tendo em conta os dois PCs e três variáveis originais, são necessários seis valores de carga (cosseno dos ângulos) para especificar como o plano do modelo é posicionado no espaço-K.,
As principais cargas do componente revelam como o plano do modelo PCA é inserido no espaço variável. Os carregamentos são usados para interpretar o significado das Pontuações.queres experimentar?
Download A Free Trial
de volta ao Blog Overview