Principal component analysis, o PCA, è una procedura statistica che consente di riassumere il contenuto informativo in tabelle di dati di grandi dimensioni mediante un insieme più piccolo di “indici di riepilogo” che possono essere più facilmente visualizzati e analizzati. I dati sottostanti possono essere misurazioni che descrivono le proprietà di campioni di produzione, composti chimici o reazioni, punti di tempo di processo di un processo continuo, lotti da un processo batch, individui biologici o prove di un protocollo DOE, per esempio.,
Questo articolo è pubblicato sul nostro Blog Sartorius.
L’utilizzo di PCA può aiutare a identificare le correlazioni tra i punti dati, ad esempio se esiste una correlazione tra il consumo di alimenti come pesce congelato e pane croccante nei paesi nordici.
L’analisi dei componenti principali oggi è una delle tecniche statistiche multivariate più popolari. È stato ampiamente utilizzato nelle aree del riconoscimento di pattern e dell’elaborazione del segnale ed è un metodo statistico sotto il titolo ampio di analisi fattoriale.,
PCA è il metodo madre per MVDA
PCA costituisce la base dell’analisi multivariata dei dati basata su metodi di proiezione. L’uso più importante di PCA è quello di rappresentare una tabella di dati multivariata come insieme più piccolo di variabili (indici di riepilogo) al fine di osservare tendenze, salti, cluster e valori anomali. Questa panoramica può scoprire le relazioni tra osservazioni e variabili e tra le variabili.
La PCA risale a Cauchy ma fu formulata per la prima volta nelle statistiche da Pearson, che descrisse l’analisi come “linee e piani di adattamento più vicini ai sistemi di punti nello spazio” .,
PCA è uno strumento molto flessibile e consente l’analisi di set di dati che possono contenere, ad esempio, multicollinearità, valori mancanti, dati categoriali e misurazioni imprecise. L’obiettivo è quello di estrarre le informazioni importanti dai dati e di esprimere queste informazioni come un insieme di indici di sintesi chiamati componenti principali.
Statisticamente, PCA trova linee, piani e iper-piani nello spazio K-dimensionale che approssimano i dati nel miglior modo possibile nel senso dei minimi quadrati., Una linea o un piano che è l’approssimazione dei minimi quadrati di un insieme di punti dati rende la varianza delle coordinate sulla linea o sul piano il più grande possibile.
PCA crea una visualizzazione di dati che minimizza la varianza residua nel senso dei minimi quadrati e massimizza la varianza delle coordinate di proiezione.
Come funziona PCA
In un precedente articolo, abbiamo spiegato perché è necessario pre-trattare i dati per PCA. Ora, diamo un’occhiata a come funziona PCA, usando un approccio geometrico.,
Considera una matrice X con N righe (alias “osservazioni”) e K colonne (alias “variabili”). Per questa matrice costruiamo uno spazio variabile con tante dimensioni quante sono le variabili (vedi figura sotto). Ogni variabile rappresenta un asse di coordinate. Per ogni variabile, la lunghezza è stata standardizzata secondo un criterio di scala, normalmente scalando alla varianza unitaria. Puoi trovare maggiori dettagli sul ridimensionamento alla varianza unitaria nel precedente post del blog.
Uno spazio variabile K-dimensionale., Per semplicità, vengono visualizzati solo tre assi variabili. La” lunghezza ” di ciascun asse di coordinate è stata standardizzata in base a un criterio specifico, di solito scala della varianza unitaria.
Nel passaggio successivo, ogni osservazione (riga) della matrice X viene posizionata nello spazio variabile K-dimensionale. Di conseguenza, le righe nella tabella dati formano uno sciame di punti in questo spazio.
Le osservazioni (righe) nella matrice di dati X possono essere intese come uno sciame di punti nello spazio variabile (spazio K).,
Centraggio medio
Successivamente, il centraggio medio comporta la sottrazione delle medie variabili dai dati. Il vettore delle medie corrisponde a un punto nello spazio K.
Nella procedura di centraggio medio, si calcolano prima le medie variabili. Questo vettore di medie è interpretabile come un punto (qui in rosso) nello spazio. Il punto è situato nel mezzo dello sciame di punti (al centro di gravità).,
La sottrazione delle medie dai dati corrisponde a un riposizionamento del sistema di coordinate, in modo tale che il punto medio sia ora l’origine.
La procedura di centraggio medio corrisponde allo spostamento dell’origine del sistema di coordinate in modo che coincida con il punto medio (qui in rosso).
Il primo componente principale
Dopo il centraggio medio e il ridimensionamento alla varianza unitaria, il set di dati è pronto per il calcolo del primo indice di riepilogo, il primo componente principale (PC1)., Questo componente è la linea nello spazio variabile K-dimensionale che meglio approssima i dati nel senso dei minimi quadrati. Questa linea passa attraverso il punto medio. Ogni osservazione (punto giallo) può ora essere proiettata su questa linea per ottenere un valore di coordinata lungo la linea PC. Questo nuovo valore di coordinate è noto anche come punteggio.
Il primo componente principale (PC1) è la linea che meglio rappresenta la forma dello sciame di punti. Rappresenta la direzione massima della varianza nei dati., Ogni osservazione (punto giallo) può essere proiettata su questa linea per ottenere un valore di coordinata lungo la linea PC. Questo valore è noto come punteggio.
La seconda componente principale
Di solito, un indice di sintesi o componente principale è insufficiente per modellare la variazione sistematica di un set di dati. Pertanto, viene calcolato un secondo indice di sintesi – una seconda componente principale (PC2). Il secondo PC è anche rappresentato da una linea nello spazio variabile K-dimensionale, che è ortogonale al primo PC., Questa linea passa anche attraverso il punto medio e migliora il più possibile l’approssimazione dei dati X.
Il secondo componente principale (PC2) è orientato in modo tale da riflettere la seconda più grande fonte di variazione nei dati, pur essendo ortogonale al primo PC. PC2 passa anche attraverso il punto medio.
Due componenti principali definiscono un piano modello
Quando due componenti principali sono state derivate, insieme definiscono un luogo, una finestra nello spazio variabile K-dimensionale., Proiettando tutte le osservazioni sul sottospazio a bassa dimensione e tracciando i risultati, è possibile visualizzare la struttura del set di dati indagato. I valori di coordinate delle osservazioni su questo piano sono chiamati punteggi, e quindi il tracciato di una tale configurazione proiettata è noto come grafico del punteggio.
Due PEZZI formano un piano. Questo piano è una finestra nello spazio multidimensionale, che può essere visualizzato graficamente. Ogni osservazione può essere proiettata su questo piano, dando un punteggio per ogni.,
Modellazione di un set di dati
Ora, consideriamo come si presenta utilizzando un set di dati di alimenti comunemente consumati in diversi paesi europei. La figura seguente mostra il grafico del punteggio dei primi due componenti principali. Questi punteggi sono chiamati t1 e t2. La trama punteggio è una mappa di 16 paesi. I paesi vicini hanno profili di consumo alimentari simili, mentre quelli lontani tra loro sono dissimili., I paesi nordici (Finlandia, Norvegia, Danimarca e Svezia) si trovano insieme nell’angolo in alto a destra, rappresentando così un gruppo di nazioni con una certa somiglianza nel consumo di cibo. Belgio e Germania sono vicini al centro (origine) della trama, il che indica che hanno proprietà medie.
La trama del punteggio PCA dei primi due PC di un set di dati sui profili di consumo alimentare. Questo fornisce una mappa di come i paesi si relazionano tra loro. Il primo componente spiega il 32% della variazione e il secondo componente il 19%., Colorato per posizione geografica(latitudine) della rispettiva capitale.
Come interpretare la trama del punteggio
In un modello PCA con due componenti, cioè un piano nello spazio K, quali variabili (disposizioni alimentari) sono responsabili dei modelli visti tra le osservazioni (paesi)? Vorremmo sapere quali variabili sono influenti e anche come le variabili sono correlate. Tale conoscenza è data dai carichi dei componenti principali (grafico sotto). Questi vettori di carico sono chiamati p1 e p2.,
La figura seguente mostra le relazioni tra tutte le 20 variabili allo stesso tempo. Le variabili che contribuiscono a informazioni simili sono raggruppate insieme, cioè sono correlate. Il pane croccante (crips_br) e il pesce congelato (Fro_Fish) sono esempi di due variabili correlate positivamente. Quando il valore numerico di una variabile aumenta o diminuisce, il valore numerico dell’altra variabile tende a cambiare allo stesso modo.,
Quando le variabili sono correlate negativamente (“inversamente”), sono posizionate su lati opposti dell’origine del grafico, in quadranti diagonalmente 0pposed. Ad esempio, le variabili aglio e dolcificante sono inversamente correlate, il che significa che quando l’aglio aumenta, il dolcificante diminuisce e viceversa.
PCA caricamento trama dei primi due componenti principali (p2 vs p1) confrontando gli alimenti consumati.,
Se due variabili sono correlate positivamente, quando il valore numerico di una variabile aumenta o diminuisce, il valore numerico dell’altra variabile tende a cambiare allo stesso modo.
Inoltre, la distanza dall’origine trasmette anche informazioni. Più lontano dall’origine della trama si trova una variabile, più forte è l’impatto che la variabile ha sul modello. Ciò significa, ad esempio, che le variabili pane croccante (Crisp_br), pesce congelato (Fro_Fish), verdure surgelate (Fro_Veg) e aglio (aglio) separano i quattro paesi nordici dagli altri., I quattro paesi nordici sono caratterizzati da valori elevati (alto consumo) delle precedenti tre disposizioni e basso consumo di aglio. Inoltre, l’interpretazione del modello suggerisce che paesi come l’Italia, il Portogallo, la Spagna e, in una certa misura, l’Austria hanno un elevato consumo di aglio e un basso consumo di dolcificante, zuppa in scatola (Ti_soup) e frutta in scatola (Ti_Fruit).
Geometricamente, i carichi dei componenti principali esprimono l’orientamento del piano del modello nello spazio variabile K-dimensionale., La direzione di PC1 in relazione alle variabili originali è data dal coseno degli angoli a1, a2 e a3. Questi valori indicano come le variabili originali x1,x2 e x3 “caricano” in (cioè contribuiscono a) PC1. Quindi, sono chiamati carichi.
Il secondo insieme di coefficienti di caricamento esprime la direzione di PC2 in relazione alle variabili originali. Quindi, dati i due PC e tre variabili originali, sono necessari sei valori di caricamento (coseno di angoli) per specificare come il piano del modello è posizionato nello spazio K.,
I caricamenti dei componenti principali scoprono come il piano del modello PCA viene inserito nello spazio variabile. I caricamenti sono utilizzati per interpretare il significato dei punteggi.
Vuoi provarlo?
Scarica una prova gratuita
Torna alla panoramica del blog