Die Hauptkomponentenanalyse oder PCA ist ein statistisches Verfahren, mit dem Sie den Informationsgehalt in großen Datentabellen mithilfe eines kleineren Satzes von „Zusammenfassungsindizes“ zusammenfassen können, die einfacher visualisiert und analysiert werden können. Die zugrunde liegenden Daten können Messungen sein, die Eigenschaften von Produktionsproben, chemischen Verbindungen oder Reaktionen, Prozesszeitpunkte eines kontinuierlichen Prozesses, Chargen aus einem Chargenprozess, biologische Individuen oder Versuche eines DOE-Protokolls beschreiben.,
Dieser Artikel ist auf unserem Sartorius Blog veröffentlicht.
Die Verwendung von PCA kann dazu beitragen, Korrelationen zwischen Datenpunkten zu identifizieren, z. B. ob es eine Korrelation zwischen dem Verzehr von Lebensmitteln wie gefrorenem Fisch und knusprigem Brot in nordischen Ländern gibt.
Die Hauptkomponentenanalyse ist heute eine der beliebtesten multivariaten statistischen Techniken. Es wurde in den Bereichen Mustererkennung und Signalverarbeitung weit verbreitet und ist eine statistische Methode unter dem breiten Titel Faktorenanalyse.,
PCA ist die Muttermethode für MVDA
PCA bildet die Grundlage für multivariate Datenanalysen basierend auf Projektionsmethoden. Die wichtigste Verwendung von PCA besteht darin, eine multivariate Datentabelle als kleineren Satz von Variablen (zusammenfassende Indizes) darzustellen, um Trends, Sprünge, Cluster und Ausreißer zu beobachten. Diese Übersicht kann die Beziehungen zwischen Beobachtungen und Variablen und zwischen den Variablen aufdecken.
PCA geht auf Cauchy zurück, wurde jedoch zuerst in der Statistik von Pearson formuliert, der die Analyse als „Linien und Ebenen der engsten Anpassung an Punktesysteme im Weltraum“ bezeichnete .,
PCA ist ein sehr flexibles Tool und ermöglicht die Analyse von Datensätzen, die beispielsweise Multicollinearität, fehlende Werte, kategoriale Daten und ungenaue Messungen enthalten können. Ziel ist es, die wichtigen Informationen aus den Daten zu extrahieren und diese Informationen als eine Reihe von zusammenfassenden Indizes auszudrücken, die als Hauptkomponenten bezeichnet werden.
Statistisch findet PCA Linien, Ebenen und Hyperebenen im K-dimensionalen Raum, die die Daten so gut wie möglich im Sinne der kleinsten Quadrate annähern., Eine Linie oder Ebene, die die Annäherung der kleinsten Quadrate eines Satzes von Datenpunkten darstellt, macht die Varianz der Koordinaten auf der Linie oder Ebene so groß wie möglich.
PCA erstellt eine Visualisierung von Daten, die die Restvarianz im Sinne der kleinsten Quadrate minimiert und die Varianz der Projektionskoordinaten maximiert.
Wie PCA funktioniert
In einem früheren Artikel haben wir erklärt, warum eine Vorbehandlung von Daten für PCA erforderlich ist. Schauen wir uns nun an, wie PCA mit einem geometrischen Ansatz funktioniert.,
Betrachten Sie eine Matrix X mit N Zeilen (auch bekannt als „Beobachtungen“) und K Spalten (auch bekannt als „Variablen“). Für diese Matrix konstruieren wir einen variablen Raum mit so vielen Dimensionen wie Variablen (siehe Abbildung unten). Jede Variable repräsentiert eine Koordinatenachse. Für jede Variable wurde die Länge nach einem Skalierungskriterium standardisiert, normalerweise durch Skalierung auf Einheitsvarianz. Weitere Details zur Skalierung auf Einheitenvarianz finden Sie im vorherigen Blogbeitrag.
Eine K-dimensionale Variablen Raum., Der Einfachheit halber werden nur drei Variablen Achsen angezeigt werden. Die „Länge“ jeder Koordinatenachse wurde nach einem bestimmten Kriterium standardisiert, üblicherweise Einheitenvarianzskalierung.
Im nächsten Schritt wird jede Beobachtung (Zeile) der X-Matrix im K-dimensionalen Variablenraum platziert. Folglich bilden die Zeilen in der Datentabelle einen Schwarm von Punkten in diesem Bereich.
Die Beobachtungen (Zeilen) in der Datenmatrix X können als ein Schwarm von Punkten im Variablenraum (K-Raum) verstanden werden.,
Mittlere Zentrierung
Als nächstes beinhaltet die mittlere Zentrierung die Subtraktion der variablen Durchschnitte von den Daten. Der Vektor der Mittelwerte entspricht einem Punkt im K-Raum.
Im Mittelzentrierverfahren berechnen Sie zuerst die Variablendurchschnitte. Dieser Vektor der Mittelwerte kann als Punkt (hier in Rot) im Raum interpretiert werden. Der Punkt befindet sich in der Mitte des Punktschwarms (im Schwerpunkt).,
Die Subtraktion der Mittelwerte von den Daten entspricht einer Neupositionierung des Koordinatensystems, so dass der Durchschnittspunkt nun der Ursprung ist.
Die mittlere Zentrierprozedur entspricht dem Verschieben des Ursprungs des Koordinatensystems, um mit dem Durchschnittspunkt übereinzustimmen (hier in rot).
Die erste Hauptkomponente
Nach der mittleren Zentrierung und Skalierung auf Einheitenvarianz ist der Datensatz für die Berechnung des ersten zusammenfassenden Index, der ersten Hauptkomponente (PC1), bereit., Diese Komponente ist die Linie im K-dimensionalen Variablenraum, die die Daten im Sinne der kleinsten Quadrate am besten annähert. Diese Linie durchläuft den Durchschnittspunkt. Jede Beobachtung (gelber Punkt) kann nun auf diese Linie projiziert werden, um einen Koordinatenwert entlang der PC-Linie zu erhalten. Dieser neue Koordinatenwert wird auch als Score bezeichnet.
Die erste Hauptkomponente (PC1) ist die Linie, die besten accounts für die Form der Punkt-Schwarm. Es stellt die maximale Varianzrichtung in den Daten dar., Jede Beobachtung (gelber Punkt) kann auf diese Linie projiziert werden, um einen Koordinatenwert entlang der PC-Linie zu erhalten. Dieser Wert wird als Score bezeichnet.
Die zweite Hauptkomponente
Normalerweise reicht ein zusammenfassender Index oder eine Hauptkomponente nicht aus, um die systematische Variation eines Datensatzes zu modellieren. Somit wird ein zweiter zusammenfassender Index – eine zweite Hauptkomponente (PC2) – berechnet. Der zweite PC wird auch durch eine Linie im K-dimensionalen Variablenraum dargestellt, die orthogonal zum ersten PC ist., Diese Linie durchläuft auch den Durchschnittspunkt und verbessert die Annäherung der X-Daten so weit wie möglich.
Die zweite Hauptkomponente (PC2) ist so ausgerichtet, dass sie die zweitgrößte Variationsquelle in den Daten widerspiegelt, während sie orthogonal zum ersten PC ist. PC2 durchläuft auch den Durchschnittspunkt.
Zwei Hauptkomponenten definieren eine Modellebene
Wenn zwei Hauptkomponenten abgeleitet wurden, definieren sie zusammen einen Ort, ein Fenster in den K-dimensionalen Variablenraum., Durch Projizieren aller Beobachtungen auf den niederdimensionalen Unterraum und Zeichnen der Ergebnisse ist es möglich, die Struktur des untersuchten Datensatzes zu visualisieren. Die Koordinatenwerte der Beobachtungen auf dieser Ebene werden als Scores bezeichnet, und daher wird das Plotten einer solchen projizierten Konfiguration als Score Plot bezeichnet.
Zwei PCs bilden ein Flugzeug. Diese Ebene ist ein Fenster in den mehrdimensionalen Raum, das grafisch visualisiert werden kann. Jede Beobachtung kann auf diese Ebene projiziert werden, wobei für jede eine Punktzahl angegeben wird.,
Modellierung eines Datensatzes
Betrachten wir nun, wie dies aussieht, indem wir einen Datensatz von Lebensmitteln verwenden, die häufig in verschiedenen europäischen Ländern konsumiert werden. Die folgende Abbildung zeigt das Score-Diagramm der ersten beiden Hauptkomponenten. Diese Werte werden t1 und t2 genannt. Das Score-Diagramm ist eine Karte von 16 Ländern. Länder, die einander nahe stehen, haben ähnliche Lebensmittelverbrauchsprofile, während diejenigen, die weit voneinander entfernt sind, unterschiedlich sind., Die nordischen Länder (Finnland, Norwegen, Dänemark und Schweden) befinden sich zusammen in der oberen rechten Ecke und repräsentieren somit eine Gruppe von Nationen mit einer gewissen Ähnlichkeit beim Nahrungsmittelkonsum. Belgien und Deutschland befinden sich in der Nähe der Mitte (Herkunft) des Grundstücks, was darauf hinweist, dass sie durchschnittliche Eigenschaften haben.
Das PCA-Score-Diagramm der ersten beiden PCs eines Datensatzes über Lebensmittelverbrauchsprofile. Dies bietet eine Karte, wie die Länder miteinander in Beziehung stehen. Die erste Komponente erklärt 32% der Variation und die zweite Komponente 19%., Farbig nach geografischer Lage (Breite) der jeweiligen Hauptstadt.
Wie interpretiere ich das Score-Diagramm
In einem PCA-Modell mit zwei Komponenten, dh einer Ebene im K-Raum, welche Variablen (Lebensmittelbestimmungen) sind für die Muster verantwortlich, die unter den Beobachtungen (Ländern) zu sehen sind? Wir möchten wissen, welche Variablen einflussreich sind und wie die Variablen korreliert sind. Dieses Wissen wird durch die Hauptkomponenten-Beladungen vermittelt (Grafik unten). Diese be-Vektoren genannt werden p1 und p2.,
Die folgende Abbildung zeigt die Beziehungen zwischen allen 20 Variablen gleichzeitig. Variablen, die ähnliche Informationen enthalten, werden gruppiert, dh sie sind korreliert. Knackiges Brot (crips_br) und gefrorener Fisch (Fro_Fish) sind Beispiele für zwei Variablen, die positiv korreliert sind. Wenn der numerische Wert einer Variablen zunimmt oder abnimmt, neigt der numerische Wert der anderen Variablen dazu, sich auf die gleiche Weise zu ändern.,
Wenn Variablen negativ („umgekehrt“) korreliert sind, werden sie auf gegenüberliegenden Seiten des Plotursprungs in diagonal 0pposed Quadranten positioniert. Zum Beispiel sind die Variablen Knoblauch und Süßstoff umgekehrt korreliert, was bedeutet, dass, wenn Knoblauch zunimmt, Süßstoff abnimmt und umgekehrt.
PCA Ladediagramm der ersten beiden Hauptkomponenten (p2 vs p1) Lebensmittel zu vergleichen verbraucht.,
Wenn zwei Variablen positiv korreliert sind, wenn der numerische Wert einer Variablen zunimmt oder abnimmt, neigt der numerische Wert der anderen Variablen dazu, sich auf die gleiche Weise zu ändern.
Darüber hinaus vermittelt der Abstand zum Ursprung auch Informationen. Je weiter weg vom Plotursprung eine Variable liegt, desto stärker ist die Auswirkung, die die Variable auf das Modell hat. Dies bedeutet zum Beispiel, dass die Variablen knuspriges Brot (Crisp_br), gefrorener Fisch (Fro_Fish), gefrorenes Gemüse (Fro_Veg) und Knoblauch (Knoblauch) die vier nordischen Länder von den anderen trennen., Die vier nordischen Länder zeichnen sich durch hohe Werte (hoher Verbrauch) der früheren drei Bestimmungen und geringen Knoblauchkonsum aus. Darüber hinaus deutet die Modellinterpretation darauf hin, dass Länder wie Italien, Portugal, Spanien und in gewissem Maße Österreich einen hohen Knoblauchkonsum und einen geringen Süßstoffverbrauch haben, Dosensuppe (Ti_soup) und Dosenfrucht (Ti_Fruit).
Geometrisch drücken die Hauptkomponentenbelastungen die Ausrichtung der Modellebene im K-dimensionalen Variablenraum aus., Die Richtung von PC1 in Bezug auf die ursprünglichen Variablen ist durch den Kosinus der Winkel a1, a2 und a3 gegeben. Diese Werte geben an, wie die ursprünglichen Variablen x1,x2 und x3 in PC1 „laden“ (dh dazu beitragen). Daher werden sie Ladungen genannt.
Der zweite Satz von Ladekoeffizienten drückt die Richtung von PC2 in Bezug auf die ursprünglichen Variablen aus. Daher werden angesichts der zwei PCs und drei ursprünglichen Variablen sechs Ladewerte (Kosinus der Winkel) benötigt, um anzugeben, wie die Modellebene im K-Raum positioniert ist.,
Die Ladevorgänge der Hauptkomponente legen fest, wie die PCA-Modellebene in den Variablenraum eingefügt wird. Die Beladungen werden zur Interpretation der Bedeutung der Partituren verwendet.
Willst du es versuchen?
Kostenlose Testversion herunterladen
Zurück zur Blogübersicht