Hovedkomponentanalyse eller PCA er en statistisk procedure, der giver dig mulighed for at opsummere informationsindholdet i store datatabeller ved hjælp af et mindre sæt “summariske indekser”, der lettere kan visualiseres og analyseres. De underliggende data kan være målinger, der beskriver egenskaber ved produktionsprøver, kemiske forbindelser eller reaktioner, procestidspunkter for en kontinuerlig proces, batches fra en batchproces, biologiske individer eller forsøg med en DOE-protokol, for eksempel.,
Denne artikel er lagt ud på vores Sartorius Blog.
ved Hjælp af PCA kan hjælpe med at identificere sammenhænge mellem data punkter, såsom hvorvidt der er en sammenhæng mellem forbruget af fødevarer som frosne fisk og sprød brød i Norden.
Hovedkomponentanalyse i dag er en af de mest populære multivariate statistiske teknikker. Det har været meget udbredt inden for mønstergenkendelse og signalbehandling og er en statistisk metode under den brede titel af faktoranalyse.,
PCA er modermetoden for mvda
PCA danner grundlaget for multivariat dataanalyse baseret på projektionsmetoder. Den vigtigste brug af PCA er at repræsentere en multivariat datatabel som mindre sæt variabler (resum indicesindekser) for at observere tendenser, Spring, klynger og outliers. Denne oversigt kan afdække forholdet mellem observationer og variabler og blandt variablerne.
PCA går tilbage til Cauchy, men blev først formuleret i statistik af Pearson, der beskrev analysen som at finde “linjer og fly, der er tættest på systemer med punkter i rummet” .,
PCA er et meget fleksibelt værktøj og tillader analyse af datasæt, der kan indeholde for eksempel multicollinearity, manglende værdier, kategoriske data og upræcise målinger. Målet er at udtrække de vigtige oplysninger fra dataene og udtrykke disse oplysninger som et sæt resum indicesindekser kaldet hovedkomponenter.
statistisk finder PCA linjer, fly og hyperplaner i det k-dimensionelle rum, der tilnærmer dataene så godt som muligt i den mindste firkantede forstand., En linje eller et plan, der er den mindste kvadraters tilnærmelse af et sæt datapunkter gør variansen af koordinaterne på linjen eller flyet så stort som muligt.
PCA skaber en visualisering af data, der minimerer residual varians i det mindste kvadraters forstand og maksimerer variansen af projektionen koordinater.
Sådan fungerer PCA
i en tidligere artikel forklarede vi, hvorfor forbehandlingsdata for PCA er nødvendige. Lad os nu se på, hvordan PCA fungerer ved hjælp af en geometrisk tilgang.,
overvej en Matri.with Med n rækker (aka “observationer”) og K kolonner (aka “variabler”). For denne Matri.konstruerer vi et variabelt rum med så mange dimensioner som der er variabler (se figur nedenfor). Hver variabel repræsenterer en koordinatakse. For hver variabel er længden blevet standardiseret i henhold til et skaleringskriterium, normalt ved at skalere til enhedsvarians. Du kan finde flere detaljer om skalering til enhedsvarians i det forrige blogindlæg.
et k-dimensionelt variabelt rum., For nemheds skyld vises kun tre variabler akser. “Længden” af hver koordinatakse er standardiseret i henhold til et specifikt kriterium, normalt enhedsvarianskalering.
i det næste trin placeres hver observation (række) af Matri-Matri .en i det k-dimensionelle variable rum. Følgelig danner rækkerne i datatabellen en sværm af punkter i dette rum.
De observationer (rækker) i data matrix X, kan forstås som en sværm af point i de variable rum (K-space).,
gennemsnitlig Centrering
dernæst involverer middelcentrering subtraktion af de variable gennemsnit fra dataene. Vektoren af gennemsnit svarer til et punkt i K-rummet.
i middelcentreringsproceduren beregner du først de variable gennemsnit. Denne vektor af gennemsnit kan fortolkes som et punkt (her i rødt) i rummet. Pointen er beliggende i midten af punktet sværm (ved tyngdepunktet).,
subtraktionen af gennemsnittet fra dataene svarer til en genpositionering af koordinatsystemet, således at gennemsnitspunktet nu er oprindelsen.
den gennemsnitlige centreringsprocedure svarer til at flytte koordinatsystemets oprindelse til at falde sammen med gennemsnitspunktet (her i rødt).
den første hovedkomponent
efter middelcentrering og skalering til enhedsvarians er datasættet klar til beregning af det første resum indexindeks, den første hovedkomponent (PC1)., Denne komponent er linjen i det k-dimensionelle variable rum, der bedst tilnærmes dataene i den mindste firkantede forstand. Denne linje går gennem det gennemsnitlige punkt. Hver observation (gul prik) kan nu projiceres på denne linje for at få en koordinatværdi langs PC-linjen. Denne nye koordinatværdi er også kendt som scoren.
den første hovedkomponent (PC1) er den linje, der bedst tegner sig for formen på punktsværmen. Det repræsenterer den maksimale variansretning i dataene., Hver observation (gul prik) kan projiceres på denne linje for at få en koordinatværdi langs PC-linjen. Denne værdi er kendt som en score.
den anden hovedkomponent
normalt er et resum indexindeks eller hovedkomponent utilstrækkeligt til at modellere den systematiske variation af et datasæt. Således beregnes et andet resum indexindeks – en anden hovedkomponent (PC2) -. Den anden PC er også repræsenteret af en linje i det k-dimensionelle variable rum, som er ortogonalt til den første PC., Denne linje passerer også gennem gennemsnitspunktet og forbedrer tilnærmelsen af data-dataene så meget som muligt.
Den anden principal komponent (PC2) er orienteret således, at det afspejler den næststørste kilde til variation i data, mens de er ortogonale i forhold til den første PC. PC2 passerer også gennem gennemsnitspunktet.
to hovedkomponenter definerer et modelplan
Når to hovedkomponenter er afledt, definerer de sammen et sted, et vindue i det k-dimensionelle variable rum., Ved at projicere alle observationer på det lavdimensionelle underrum og plotte resultaterne, er det muligt at visualisere strukturen af det undersøgte datasæt. Koordinatværdierne for observationerne på dette plan kaldes scoringer, og derfor er plotningen af en sådan projiceret konfiguration kendt som et score plot.
to pc ‘ er danner et plan. Dette plan er et vindue ind i det multidimensionelle rum, som kan visualiseres Grafisk. Hver observation kan projiceres på dette plan, hvilket giver en score for hver.,
modellering af et datasæt
lad os nu overveje, hvordan dette ser ud ved hjælp af et datasæt med fødevarer, der ofte forbruges i forskellige europæiske lande. Figuren nedenfor viser score plot af de to første hovedkomponenter. Disse scoringer kaldes t1 og T2. Scoren plot er et kort over 16 lande. Lande tæt på hinanden har lignende fødevareforbrugsprofiler, mens de langt fra hinanden er forskellige., De nordiske lande (Finland, Norge, Danmark og Sverige) er placeret sammen i øverste højre hjørne og repræsenterer således en gruppe nationer med en vis lighed i fødevareforbruget. Belgien og Tyskland er tæt på centrum (Oprindelse) af plottet, hvilket indikerer, at de har gennemsnitlige egenskaber.
PCA score plot af de to første pc ‘ er af et datasæt om fødevareforbrug profiler. Dette giver et kort over, hvordan landene forholder sig til hinanden. Den første komponent forklarer 32% af variationen, og den anden komponent 19%., Farvet efter geografisk placering (breddegrad) af den respektive hovedstad.
hvordan fortolkes Scoringplottet
i en PCA-model med to komponenter, det vil sige et plan i K-rum, hvilke variabler (fødevarebestemmelser) er ansvarlige for de mønstre, der ses blandt observationerne (lande)? Vi vil gerne vide, hvilke variabler der er indflydelsesrige, og også hvordan variablerne er korrelerede. En sådan viden er givet ved de vigtigste komponent belastninger (graf nedenfor). Disse lastning vektorer kaldes p1 og P2.,
figuren nedenfor viser forholdet mellem alle 20 variabler på samme tid. Variabler, der bidrager med lignende oplysninger, grupperes sammen, det vil sige, de er korrelerede. Skarpt brød (crips_br) og frosset fisk (Fro_Fish) er eksempler på to variabler, der er positivt korrelerede. Når den numeriske værdi af en variabel stiger eller falder, har den numeriske værdi af den anden variabel en tendens til at ændre sig på samme måde.,
når variabler er negativt (“omvendt”) korrelerede, er de placeret på modsatte sider af plotoprindelsen, i diagonalt 0placerede kvadranter. For eksempel er variablerne hvidløg og sødestof omvendt korreleret, hvilket betyder, at når hvidløg stiger, falder sødestoffet og vice versa.
PCA loading plot af de to første hovedkomponenter (p2 vs P1) sammenligning af forbrugte fødevarer.,
hvis to variabler er positivt korrelerede, når den numeriske værdi af en variabel stiger eller falder, har den numeriske værdi af den anden variabel en tendens til at ændre sig på samme måde.
desuden formidler afstanden til oprindelsen også information. Jo længere væk fra plotoprindelsen en variabel ligger, desto stærkere er den indflydelse, som variablen har på modellen. Dette betyder for eksempel, at de variabler, knækbrød (Crisp_br), frosset fisk (Fro_Fish), frosne grøntsager (Fro_Veg) og hvidløg (Hvidløg), adskiller de fire Nordiske lande fra de andre., De fire nordiske lande er karakteriseret som høje værdier (højt forbrug) af de tidligere tre bestemmelser, og lavt forbrug af hvidløg. Desuden, den model fortolkning tyder på, at lande som Italien, Portugal, Spanien og til en vis grad, Østrig har et højt forbrug af hvidløg, og et lavt forbrug af sødemiddel, dåse suppe (Ti_soup) og konserves af frugt (Ti_Fruit).
Geometrisk udtrykker hovedkomponentbelastningerne orienteringen af modelplanet i det k-dimensionelle variable rum., Retningen af PC1 i forhold til de oprindelige variabler er givet ved cosinus af vinklerne a1, a2 og a3. Disse værdier angiver, hvordan de oprindelige variabler11 ,22 og33″ load ” I (betydning bidrager til) PC1. Derfor kaldes de belastninger.
det andet sæt belastningskoefficienter udtrykker retningen af PC2 i forhold til de oprindelige variabler. I betragtning af de to pc ‘ er og tre originale variabler er der derfor behov for seks belastningsværdier (cosinus af vinkler) for at specificere, hvordan modelplanet er placeret i K-rummet.,
de vigtigste komponentbelastninger afslører, hvordan PCA-modelplanet indsættes i det variable rum. Belastningerne bruges til at fortolke betydningen af scoringerne.
vil du prøve det?
do Downloadnload en GRATIS Prøveversion
Tilbage til Blogoversigt