Principal component analysis, eller PCA, er en statistisk prosedyre som gjør det mulig å oppsummere informasjon innhold i store data tabeller ved hjelp av et mindre sett av «sammendrag indekser» som kan være mer lett å visualisere og analysert. De underliggende dataene kan være målinger som beskriver egenskapene til produksjon prøver, kjemiske forbindelser eller reaksjoner, prosess-tid poeng av en kontinuerlig prosess, og grupper fra en batch prosess, biologiske enkeltpersoner eller studier av en DOE-protokollen, for eksempel.,
Denne artikkelen er lagt ut på vår Sartorius Blogg.
ved Hjelp av PCA kan bidra til å identifisere sammenhenger mellom datapunkter, for eksempel om det er en sammenheng mellom inntak av matvarer som frossen fisk og knekkebrød i Nordiske land.
Principal component analyse i dag er en av de mest populære multivariate statistiske teknikker. Det har blitt mye brukt i de områdene av mønstergjenkjenning og signalbehandling og er en statistisk metode under den brede tittelen på faktoranalyse.,
PCA er mor metode for MVDA
PCA danner grunnlaget for multivariat data analyse basert på projeksjonsmetoder. Den viktigste bruk av PCA er å representere en multivariat data tabell som mindre sett av variabler (sammendrag indekser) for å observere trender, hopp, klynger og uteliggere. Denne oversikten kan avdekke sammenhenger mellom observasjoner og variabler, og blant variablene.
PCA går tilbake til Kontinuitet, men ble først formulert i statistikk ved Pearson, som beskrevet analysen som å finne «linjer og fly til nærmeste passer til systemer av punkter i rommet» .,
PCA er et meget fleksibelt verktøy og lar analyse av datasett som kan inneholde, for eksempel, multicollinearity, mangler verdier, kategoriske data, og upresis målinger. Målet er å trekke ut viktig informasjon fra data og til å uttrykke denne informasjonen som et sett av sammendrag indekser kalt hovedkomponentene.
Statistisk, PCA finner linjer, fly og hyper-fly i K-dimensjonale rommet som omtrentlige data så godt som mulig i den minste kvadraters forstand., En linje eller et fly som er minste kvadraters tilnærming av et sett av data poeng gjør variansen av koordinater på linje eller fly så stor som mulig.
PCA skaper en visualisering av data som reduserer gjenværende avvik i det minste kvadraters fornuft og maksimerer variansen av projeksjon koordinater.
Hvordan PCA fungerer
I en tidligere artikkel, forklarte vi hvorfor pre-behandling av data for PCA er nødvendig. Nå, la oss ta en titt på hvordan PCA fungerer, ved hjelp av et geometrisk tilnærming.,
Vurdere en matrise X med N rader (aka «observations») og K kolonner (aka «variabler»). For denne matrisen vi konstruere en variabel plass med like mange dimensjoner som det er variabler (se figur nedenfor). Hver variabel representerer en koordinering-aksen. For hver variabel, lengden har blitt standardisert i henhold til en skalering kriteriet, normalt ved å skalere til enhet varians. Du kan finne mer informasjon om skalering til enhet variasjon i forrige blogginnlegg.
En K-dimensjonale variabel plass., For enkelhet, bare tre variabler aksene er vist. Den «lengde» hver koordinere aksen har blitt standardisert i henhold til en bestemt kriterium, vanligvis enhet varians skalering.
I neste trinn, hver observasjon (rad) av X-matrisen er plassert i K-dimensjonale variabel plass. Følgelig rader i data-tabellen danner en sverm av punktene i dette rommet.
observasjoner (rader) i data matrix-X kan forstås som en sverm av poeng i variabelen plass (K-space).,
Mener sentrering
Neste, mener-sentrering innebærer subtraksjon av variabel gjennomsnitt fra de data. Vektoren av gjennomsnitt tilsvarer et punkt i K-space.
I mellomtiden-sentrering prosedyren, må du først beregne variabel gjennomsnitt. Denne vektoren i gjennomsnitt er kan tolkes som et punkt (her i rødt) på plass. Poenget ligger i midten av punkt sverm (i midten av tyngdekraften).,
subtraksjon av gjennomsnitt fra de data som tilsvarer en re-posisjonering av koordinat-system, slik at den gjennomsnittlige punktet nå er opphavet.
Det betyr-sentrering prosedyren tilsvarer å flytte opprinnelsen til koordinatsystemet for å sammenfalle med den gjennomsnittlige punkt (her i rødt).
Den første principal component
Etter bety-sentrering og skalering til enhet varians, data set er klar for beregning av den første oppsummering indeks, den første prinsipale komponenten (PC1)., Denne komponenten er linjen i K-dimensjonale variabel plass som best tilsvarer dataene i det minste kvadraters forstand. Denne linjen går gjennom den gjennomsnittlige punkt. Hver observasjon (gul prikk) kan nå være projisert på denne linjen for å få et koordinere verdi langs PC-linje. Denne nye koordinere verdi er også kjent som resultat.
Den første prinsipale komponenten (PC1) er den linjen som best kontoer for formen på punkt sverm. Det representerer den maksimale avvik retning i dataene., Hver observasjon (gul prikk) kan bli projisert på denne linjen for å få et koordinere verdi langs PC-linje. Denne verdien er kjent som en score.
Den andre principal component
Vanligvis, en oppsummering index-eller viktigste komponent er tilstrekkelig for å modellere systematisk variasjon av et datasett. Dermed, en annen oppsummering index – en nest viktigste komponenten (PC2) – er beregnet. Den andre PC-en er også representert med en linje i K-dimensjonale variabel plass, som er ortogonale til den første PC-en., Denne linjen går også gjennom den gjennomsnittlige punkt, og forbedrer tilnærming til X-data så mye som mulig.
Den andre viktigste komponenten (PC2) er orientert slik at den reflekterer den nest største kilden til variasjon i dataene, samtidig som det er ortogonale til den første PC-en. PC2 går også gjennom den gjennomsnittlige punkt.
To hovedkomponentene definere en modell fly
Når to viktigste komponentene har blitt avledet fra de sammen definerer et sted, et vindu inn i K-dimensjonale variabel plass., Ved å projisere alle observasjoner på lav-dimensjonale sub-plass og plotting av resultater, er det mulig å visualisere strukturen av de undersøkte data set. Koordinatverdiene av observasjoner på dette flyet er kalt score, og dermed plotting av en slik anslått konfigurasjon er kjent som en score plot.
To Pcer form av et fly. Dette flyet er et vindu inn i flerdimensjonale plass, noe som kan visualiseres grafisk. Hver observasjon kan være projisert på dette flyet, noe som gir en poengsum for hver.,
Modellering et datasett
Nå, la oss vurdere hva dette ser ut som ved hjelp av en data-sett av matvarer som vanligvis brukes i ulike Europeiske land. Figuren nedenfor viser score plot av de første to viktigste komponentene. Disse poengsummene er kalt t1 og t2. Score plot er et kart over 16 land. Land nær hverandre har lignende mat forbruk profiler, mens de som er langt fra hverandre, er ulike., De Nordiske landene (Finland, Norge, Danmark og Sverige) er plassert sammen i øvre høyre hjørne, og dermed representerer en gruppe land med noen likheter i matforbruk. Belgia og Tyskland er nær til sentrum (opprinnelse) av tomten, noe som indikerer at de har gjennomsnittlig egenskaper.
PCA score plot av de første to Stk av et datasett om mat forbruk profiler. Dette gir et kart over hvordan land forholder seg til hverandre. Den første komponenten forklarer 32% av variasjonen, og den andre delen 19%., Farget av geografisk posisjon (breddegrad) av de respektive hovedstaden.
Hvordan å Tolke Score Plot
I en PCA-modell med to komponenter, som er en planet i K-space, som variabler (mat bestemmelser) er ansvarlig for den mønstre sett blant de observasjoner (land)? Vi vil gjerne vite hvilke variabler er innflytelsesrik, og også hvordan variablene er korrelert. Slik kunnskap er gitt ved principal component belastninger (graf nedenfor). Disse legger vektorer er kalt p1 og p2.,
figuren nedenfor viser forholdet mellom alle 20 variabler på samme tid. Variabler som bidrar lignende informasjon er gruppert sammen, som er, de er korrelert. Knekkebrød (crips_br) og frossen fisk (Fro_Fish) er eksempler på to variabler som er positivt korrelert. Når numeriske verdien av en variabel øker eller minsker, vil den numeriske verdien av den andre variabelen har en tendens til å endre seg på samme måte.,
Når variablene er negativt («omvendt») korrelert, de er plassert på motsatt side av tomten opprinnelse, i diagonalt 0pposed kvadranter. For eksempel variablene hvitløk og søtningsmiddel er omvendt korrelert, noe som betyr at når hvitløk øker, søtningsmiddel reduseres, og vice versa.
PCA legge handlingen i de to første prinsipale komponenter (p2 vs p1) sammenligner matvarer som forbrukes.,
Hvis to variabler er positivt korrelert, når den numeriske verdien av en variabel øker eller minsker, vil den numeriske verdien av den andre variabelen har en tendens til å endre seg på samme måte.
Videre, avstanden til opprinnelsen også formidler informasjon. Jo lenger vekk fra tomten opprinnelse en variabel ligger, jo sterkere er effekten at variabelen har på modellen. Dette betyr for eksempel at variablene knekkebrød (Crisp_br), frossen fisk (Fro_Fish), frosne grønnsaker (Fro_Veg) og hvitløk (Hvitløk) skiller de fire Nordiske landene fra de andre., De fire Nordiske landene er karakterisert som å ha høye verdier (høyt forbruk) av de tidligere tre bestemmelser, og lavt inntak av hvitløk. Videre er modellen tolkning tyder på at land som Italia, Portugal, Spania og til en viss grad, Østerrike har høyt forbruk av hvitløk, og lavt forbruk av søtningsmiddel, hermetisk suppe (Ti_soup) og konservert frukt (Ti_Fruit).
Geometrisk, den viktigste komponenten belastninger express retning av modell fly i K-dimensjonale variabel plass., Retning av PC1 i forhold til de opprinnelige variablene er gitt ved cosinus til vinklene a1, a2 og a3. Disse verdiene indikerer hvordan den opprinnelige variablene x1, x2 og x3 «load» inn (som betyr bidra til å) PC1. De har derfor kalt belastninger.
Det andre settet av lasting koeffisienter uttrykker retning av PC2 i forhold til de opprinnelige variablene. Derfor, gitt de to Pc-er og tre opprinnelige variablene, seks legge verdier (cosinus til vinklene er ikke nødvendig å angi hvordan modellen flyet er plassert i K-space.,
Den viktigste komponenten belastninger avdekke hvordan PCA-modell fly er satt inn i variabelen plass. Den belastninger er brukt for å tolke betydningen av resultatene.
Ønsker å Prøve Det?
Last ned en Gratis Prøveversjon
Tilbake til Blogg-Oversikt