L’analyse en composantes principales, ou PCA, est une procédure statistique qui vous permet de résumer le contenu de l’information dans de grands tableaux de données au moyen d’un ensemble plus petit d ‘ « indices récapitulatifs” qui peuvent être plus facilement visualisés et analysés. Les données sous-jacentes peuvent être des mesures décrivant les propriétés des échantillons de production, des composés chimiques ou des réactions, des points de temps de processus d’un processus continu, des lots d’un processus par lots, des individus biologiques ou des essais d’un protocole DOE, par exemple.,
Cet article est publié sur notre Blog Sartorius.
L’utilisation de la PCA peut aider à identifier les corrélations entre les points de données, par exemple s’il existe une corrélation entre la consommation d’aliments comme le poisson congelé et le pain croustillant dans les pays nordiques.
l’analyse en composantes principales est aujourd’hui l’une des techniques statistiques multivariées les plus populaires. Il a été largement utilisé dans les domaines de la reconnaissance des formes et du traitement du signal et est une méthode statistique sous le titre général d’analyse factorielle.,
PCA est la méthode mère pour MVDA
PCA constitue la base de l’analyse de données multivariées basée sur des méthodes de projection. L’utilisation la plus importante de L’APC est de représenter un tableau de données multivariées sous la forme d’un ensemble plus petit de variables (indices sommaires) afin d’observer les tendances, les sauts, les grappes et les valeurs aberrantes. Cet aperçu peut découvrir les relations entre les observations et les variables, et entre les variables.
la PCA remonte à Cauchy mais a été formulée pour la première fois en statistiques par Pearson, qui a décrit l’analyse comme trouvant « des lignes et des plans les plus proches des systèmes de points dans l’espace” .,
PCA est un outil très flexible qui permet d’analyser des ensembles de données qui peuvent contenir, par exemple, de la multicollinéarité, des valeurs manquantes, des données catégorielles et des mesures imprécises. L’objectif est d’extraire les informations importantes des données et d’exprimer ces informations sous la forme d’un ensemble d’indices sommaires appelés composantes principales.
statistiquement, PCA trouve des lignes, des plans et des hyper-plans dans L’espace K-dimensionnel qui approchent les données aussi bien que possible au sens des moindres carrés., Une ligne ou un plan qui est l’approximation des moindres carrés d’un ensemble de points de données rend la variance des coordonnées sur la ligne ou le plan aussi grande que possible.
PCA crée une visualisation des données qui minimise la variance résiduelle au sens des moindres carrés et maximise la variance des coordonnées de projection.
comment fonctionne le PCA
dans un article précédent, nous avons expliqué pourquoi le prétraitement des données pour le PCA est nécessaire. Voyons maintenant comment fonctionne PCA, en utilisant une approche géométrique.,
Considérons une matrice X avec N lignes (aka « observations ») et K colonnes (aka « variables »). Pour cette matrice, nous construisons un espace variable avec autant de dimensions qu’il y a de variables (voir figure ci-dessous). Chaque variable représente un axe de coordonnées. Pour chaque variable, La longueur a été normalisée selon un critère de mise à l’échelle, normalement par mise à l’échelle à la variance unitaire. Vous pouvez trouver plus de détails sur la mise à l’échelle en variance unitaire dans l’article de blog précédent.
Un K-dimensionnel de la variable d’espace., Pour plus de simplicité, seuls trois axes de variables sont affichés. La « longueur » de chaque axe de coordonnées a été normalisée selon un critère spécifique, généralement l’échelle de variance unitaire.
à l’étape suivante, chaque observation (ligne) de la matrice X est placée dans L’espace variable de dimension K. Par conséquent, les lignes du tableau de données forment un essaim de points dans cet espace.
Les observations (lignes) dans la matrice de données X peut être compris comme un essaim de points dans l’espace variable (K-espace).,
centrage moyen
ensuite, le centrage moyen implique la soustraction des moyennes variables des données. Le vecteur des moyennes correspond à un point dans l’espace-K.
dans la procédure de centrage des moyennes, vous calculez d’abord les moyennes des variables. Ce vecteur de moyennes est interprétable comme un point (ici en rouge) dans l’espace. Le point est situé au milieu de l’essaim de points (au centre de gravité).,
la soustraction des moyennes des données correspond à un repositionnement du système de coordonnées, tel que le point moyen est maintenant l’origine.
la procédure de centrage moyen correspond au déplacement de l’origine du système de coordonnées pour coïncider avec le point moyen (ici en rouge).
la première composante principale
Après le centrage de la moyenne et la mise à l’échelle de la variance unitaire, l’ensemble de données est prêt pour le calcul du premier indice récapitulatif, la première composante principale (PC1)., Cette composante est la ligne dans L’espace variable de dimension K qui se rapproche le mieux des données au sens des moindres carrés. Cette ligne passe par le point moyen. Chaque observation (point jaune) peut maintenant être projetée sur cette ligne afin d’obtenir une valeur de coordonnées le long de la ligne PC. Cette nouvelle valeur de coordonnées est également connue sous le nom de score.
La première composante principale (PC1) est la ligne que meilleurs comptes pour la forme de la pointe de l’essaim. Il représente la direction de variance maximale dans les données., Chaque observation (point jaune) peut être projetée sur cette ligne afin d’obtenir une valeur de coordonnées le long de la ligne PC. Cette valeur est connue comme une partition.
la deuxième composante principale
habituellement, un indice sommaire ou une composante principale est insuffisant pour modéliser la variation systématique d’un ensemble de données. Ainsi, un deuxième indice sommaire – une deuxième composante principale (PC2) – est calculé. Le deuxième PC est également représenté par une ligne dans L’espace variable de dimension K, qui est orthogonale au premier PC., Cette ligne passe également par le point moyen et améliore autant que possible l’approximation des données X.
la deuxième composante principale (PC2) est orientée de telle sorte qu’elle reflète la deuxième plus grande source de variation des données, tout en étant orthogonale au premier PC. PC2 passe également par le point moyen.
deux composantes principales définissent un plan modèle
lorsque deux composantes principales ont été dérivées, elles définissent ensemble un lieu, une fenêtre dans l’espace des variables de dimension K., En projetant toutes les observations sur le sous-espace de faible dimension et en traçant les résultats, il est possible de visualiser la structure de l’ensemble de données étudié. Les valeurs de coordonnées des observations sur ce plan sont appelées scores, et par conséquent le tracé d’une telle configuration projetée est connu comme un tracé de score.
Deux Ordinateurs forme d’un avion. Ce plan est une fenêtre sur l’espace multidimensionnel, qui peut être visualisé graphiquement. Chaque observation peut être projetée sur ce plan, donnant un score pour chacune.,
modélisation d’un ensemble de données
maintenant, considérons à quoi cela ressemble en utilisant un ensemble de données d’aliments couramment consommés dans différents pays européens. La figure ci-dessous affiche le tracé du score des deux premières composantes principales. Ces scores sont appelés t1 et t2. Le tracé du score est une carte de 16 Pays. Les pays proches les uns des autres ont des profils de consommation alimentaire similaires, alors que ceux éloignés les uns des autres sont différents., Les pays nordiques (Finlande, Norvège, Danemark et Suède) sont situés ensemble dans le coin supérieur droit, représentant ainsi un groupe de nations présentant une certaine similitude dans la consommation alimentaire. La Belgique et L’Allemagne sont proches du centre (origine) de la parcelle, ce qui indique qu’elles ont des propriétés moyennes.
L’APC score de l’intrigue des deux premiers Pc d’un ensemble de données sur la consommation alimentaire des profils. Cela fournit une carte de la façon dont les pays se rapportent les uns aux autres. La première composante explique 32% de la variation, et la deuxième composante 19%., Couleur par emplacement géographique (latitude) de la capitale respective.
comment interpréter le tracé du Score
dans un modèle PCA à deux composantes, c’est-à-dire un plan dans L’Espace K, quelles variables (provisions alimentaires) sont responsables des schémas observés parmi les observations (pays)? Nous aimerions savoir quelles variables sont influentes, et aussi comment les variables sont corrélées. Ces connaissances sont fournies par les charges des composants principaux (graphique ci-dessous). Ces vecteurs de chargement sont appelés p1 et p2.,
la figure ci-dessous affiche les relations entre les 20 variables en même temps. Les Variables contribuant à des informations similaires sont regroupées, c’est-à-dire qu’elles sont corrélées. Le pain croustillant (crips_br) et le poisson congelé (Fro_Fish) sont des exemples de deux variables qui sont positivement corrélées. Lorsque la valeur numérique d’une variable augmente ou diminue, la valeur numérique de la variable a tendance à modifier de la même manière.,
lorsque les variables sont négativement (« inversement”) corrélées, elles sont positionnées sur les côtés opposés de l’origine de la parcelle, dans des quadrants diagonalement 0pposés. Par exemple, les variables ail et édulcorant sont inversement corrélées, ce qui signifie que lorsque l’ail augmente, l’édulcorant diminue, et vice versa.
graphique de chargement PCA des deux premiers composants principaux (p2 vs p1) comparant les aliments consommés.,
Si deux variables sont corrélées positivement, lorsque la valeur numérique d’une variable augmente ou diminue, la valeur numérique de la variable a tendance à modifier de la même manière.
En outre, la distance à l’origine transmet également des informations. Plus une variable s’éloigne de l’origine de la parcelle, plus l’impact de cette variable sur le modèle est fort. Cela signifie, par exemple, que les variables pain croustillant (Crisp_br), poisson congelé (Fro_Fish), légumes surgelés (Fro_Veg) et ail (Ail) séparent les quatre pays nordiques des autres., Les quatre pays nordiques sont caractérisés par des valeurs élevées (consommation élevée) des trois premières dispositions et une faible consommation d’ail. En outre, l’interprétation du modèle suggère que des pays comme L’Italie, Le Portugal, L’Espagne et, dans une certaine mesure, L’Autriche ont une consommation élevée d’ail et une faible consommation d’édulcorant, de soupe en conserve (Ti_soup) et de fruits en conserve (Ti_Fruit).
géométriquement, les charges des composantes principales expriment l’orientation du plan modèle dans L’espace variable de dimension K., La direction de PC1 par rapport aux variables d’origine est donnée par le cosinus des angles a1, a2 et a3. Ces valeurs indiquent comment les variables d’origine x1, x2 et x3 « se chargent” dans (ce qui signifie contribuer à) PC1. Par conséquent, ils sont appelés les charges.
le deuxième ensemble de coefficients de chargement exprime la direction de PC2 par rapport aux variables d’origine. Par conséquent, étant donné les deux PC et trois variables d’origine, six valeurs de chargement (cosinus d’angles) sont nécessaires pour spécifier comment le plan modèle est positionné dans L’espace K.,
les chargements des composants principaux révèlent comment le plan modèle PCA est inséré dans l’espace variable. Les charges sont utilisées pour interpréter le sens des partitions.
vous Voulez l’Essayer?
Télécharger une version d’Essai Gratuite
Retour au Blog vue d’ensemble