Welcome to Our Website

Mikä on pääasiallinen Komponenttianalyysi (PCA) ja miten sitä käytetään?

pääkomponenttianalyysi, tai KUMPPANUUS-ja yhteistyösopimuksen, on tilastollinen menettely, jonka avulla voit tiivistää tietoa sisällön suuri tiedot taulukoiden avulla pienempi joukko ”yhteenveto indeksit”, joka voidaan helposti visualisoida ja analysoida. Taustalla olevat tiedot voidaan mittaukset kuvaavat ominaisuudet tuotannon näytteiden, kemiallisia yhdisteitä, tai reaktioita, prosessi ajankohtina jatkuva prosessi, erissä alkaen erä prosessi, biologisten yksilöiden tai tutkimuksissa DOE-protokolla, esimerkiksi.,

Tämä artikkeli on julkaistu Sartorius-blogissamme.

Käyttämällä PCA voi auttaa tunnistamaan korrelaatioita tietoja pistettä, kuten onko korrelaatio kulutus elintarvikkeita, kuten jäädytetty kala ja näkkileipää Pohjoismaissa.

pääkomponenttianalyysi on nykyään yksi suosituimmista monimuuttujatilastollisista tekniikoista. Sitä on käytetty laajalti kuvantunnistuksen ja signaalinkäsittelyn aloilla, ja se on tilastollinen menetelmä tekijäanalyysin laajassa otsikossa.,

PCA on äiti menetelmä MVDA

PCA muodostaa perustan monimuuttuja data-analyysi perustuu projektio menetelmiä. Tärkein käyttö PCA on edustaa monimuuttuja data-taulukon pienempi joukko muuttujia (yhteenveto indeksit) jotta voidaan tarkkailla suuntauksia, hyppyjä, klustereita ja harha. Tämä yleiskatsaus saattaa paljastaa havaintojen ja muuttujien väliset suhteet sekä muuttujien väliset suhteet.

PCA palaa cauchyyn, mutta sen muotoili tilastoissa ensimmäisenä Pearson, joka kuvaili analyysin löytävän ”viivoja ja lentokoneita, jotka ovat lähimpänä avaruudessa olevien pisteiden järjestelmiä” .,

PCA on erittäin joustava työkalu, joka mahdollistaa analyysin aineistot, jotka voivat sisältää, esimerkiksi, multicollinearity, puuttuvat arvot, kategorinen data, ja epätarkkoja mittauksia. Tavoitteena on poimia tärkeitä tietoja, valitse tiedot ja ilmaista tätä tietoa joukko yhteenveto indeksit nimeltään pääasiallinen osia.

Tilastollisesti, PCA toteaa, lines, lentokoneet ja hyper-konetta K-ulotteinen tila, joka lähentää tiedot niin hyvin kuin mahdollista pienimmän neliösumman mielessä., Linja-tai lentokone, joka on pienimmän neliösumman approksimaatio joukko tietoja kohtia tekee varianssi koordinaatit linjalla tai lentokoneella mahdollisimman suuri.

PCA luo visualisointi datan, joka minimoi jäljellä varianssi pienimmän neliösumman mielessä ja maksimoi varianssin projektio koordinaatit.

miten PCA vaikuttaa

edellisessä artikkelissa selitimme, miksi PCA: n esikäsittelytiedot ovat tarpeen. Nyt, Katsotaanpa katsomaan, miten PCA toimii, käyttäen geometrinen lähestymistapa.,

tarkastellaan matriisia X, jossa on n-rivit (eli ”havainnot”) ja K-sarakkeet (eli ”muuttujat”). Tämän matriisin luomme muuttujan tilaa niin monta ulottuvuutta kuin on muuttujia (ks. kuva alla). Jokainen muuttuja edustaa yhtä koordinaattiakselia. Kunkin muuttujan pituus on standardoitu mukaan skaalaus kriteeri, normaalisti skaalaus yksikkö varianssi. Lisätietoja skaalauksesta yksikkövarianssiin löydät edellisestä blogikirjoituksesta.

K-ulotteinen muuttuja-avaruudessa., Yksinkertaisuuden vuoksi näytetään vain kolme muuttujaa. Kunkin koordinaattiakselin ”pituus” on standardoitu tietyn kriteerin, yleensä yksikkövarianssimittauksen, mukaan.

seuraavassa vaiheessa jokainen X-matriisin havainto (rivi) sijoitetaan k-dimensiomuuttujan tilaan. Näin ollen datataulukon rivit muodostavat pisteparven tässä tilassa.

huomautukset (rivit) tiedot matriisi X voidaan ymmärtää parvi pistettä muuttuja-avaruudessa (K-space).,

keskityksen keskiarvo

seuraava, keskitys tarkoittaa muuttujien keskiarvojen vähennystä tiedoista. Keskiarvojen vektori vastaa k-avaruudessa olevaa pistettä.

keskiarvo-keskitys menettelyn, sinun on ensin laskea muuttujan keskiarvot. Tämä keskiarvojen vektori on tulkittavissa pisteenä (täällä punaisella) avaruudessa. Piste sijaitsee pisteparven keskellä (painopisteen kohdalla).,

vähennyslasku keskiarvot tiedoista vastaa uudelleen asemointi koordinaatistoon siten, että keskimääräinen kohta nyt on alkuperä.

keskiarvo-keskitys menettely vastaa liikkuvat alkuperä koordinaatistossa samaan aikaan keskimääräinen kohta (punaisella).

ensimmäinen principal component

Kun siis-keskitys ja skaalaus yksikkö varianssi, tiedot sarja on valmis laskenta ensimmäinen yhteenveto-indeksi, ensimmäinen pääasiallinen komponentti (PC1)., Tämä komponentti on K-ulotteisen muuttujan avaruuden viiva, joka parhaiten approksimoi dataa vähiten neliöitä tarkoittavassa merkityksessä. Tämä raja menee keskiarvopisteen läpi. Jokainen havainto (keltainen piste) voidaan nyt projisoida tälle linjalle, jotta saadaan koordinaattiarvo pitkin PC-linjaa. Tämä uusi koordinaattiarvo tunnetaan myös pisteenä.

ensimmäinen pääasiallinen komponentti (PC1) on linja, että paras osuus muoto vaiheessa parvi. Se edustaa tietojen suurinta varianssisuuntaa., Jokainen havainto (keltainen piste) voidaan projisoida tälle linjalle, jotta saadaan koordinaattiarvo pitkin PC-linjaa. Tämä arvo tunnetaan pistemääränä.

toinen pääasiallinen komponentti

Yleensä, yksi yhteenveto indeksi tai pääasiallinen komponentti on riittämätön malli järjestelmällinen vaihtelu tietojen joukko. Näin lasketaan toinen yleisindeksi-toinen pääkomponentti (PC2). Toista PC: tä edustaa myös K-ulotteisen muuttujan avaruudessa oleva viiva, joka on ortogonaalinen ensimmäiseen PC: hen nähden., Tämä linja kulkee myös keskipisteen läpi ja parantaa X-datan likiarvoa mahdollisimman paljon.

toinen pääasiallinen komponentti (PC2) on suunnattu siten, että se heijastaa toiseksi suurin lähde vaihtelua tietoja, kun se on kohtisuorassa ensimmäinen PC. PC2 kulkee myös keskiarvopisteen kautta.

Kaksi pääasiallista komponenttien määritellä malli kone

Kun kaksi pääasiallista komponentit on johdettu, he yhdessä määrittelevät paikka, ikkunan K-ulotteinen muuttuja-avaruudessa., Projisoimalla kaikki havainnot päälle matala-ulotteinen sub-avaruus ja kuvaaja tuloksia, se on mahdollista visualisoida rakennetta tutkitaan data set. Koordinaattien arvot huomautukset tämä kone on nimeltään tulokset, ja siten piirtämistä tällaisen ennustetaan kokoonpano tunnetaan pisteet juoni.

Kaksi Kpl muodostavat koneen. Tämä taso on ikkuna moniulotteiseen tilaan, joka voidaan visualisoida graafisesti. Jokainen havainto voidaan projisoida tälle tasolle, jolloin pisteet kullekin.,

mallintamalla tietokokonaisuutta

nyt mietitään, miltä tämä näyttää eri Euroopan maissa yleisesti nautittujen elintarvikkeiden tietokokonaisuuden avulla. Alla olevassa kuvassa on kahden ensimmäisen pääkomponentin pistemäärä. Nämä pisteet ovat nimeltään t1 ja t2. Pistetontti on kartta 16 maasta. Maissa lähellä toisiaan ovat samanlaisia elintarvikkeiden kulutuksen profiilit, kun taas kaukana toisistaan ovat erilaisia., Pohjoismaat (Suomi, Norja, Tanska ja Ruotsi) sijaitsevat yhdessä oikeassa yläkulmassa, edustaen näin ryhmä kansakuntien kanssa joitakin yhtäläisyyksiä elintarvikkeiden kulutus. Belgia Ja Saksa ovat lähellä tontin keskustaa (alkuperää), mikä osoittaa, että niillä on keskimääräisiä ominaisuuksia.

KUMPPANUUS-ja yhteistyösopimuksen pisteet juoni kaksi ensimmäistä kappaletta tietojen joukko, noin elintarvikkeiden kulutus profiilit. Näin saadaan kartta siitä, miten maat suhtautuvat toisiinsa. Ensimmäinen komponentti selittää 32% vaihtelusta ja toinen komponentti 19%., Kulloisenkin pääkaupungin maantieteellisen sijainnin (leveysasteen) värittämänä.

Miten Tulkita Pisteet Juoni

PCA-malli, jossa on kaksi osaa, eli kone K-avaruuteen, joka muuttujat (ruoka säännökset) ovat vastuussa kuvioita nähnyt niistä havaintoja (maat)? Haluaisimme tietää, mitkä muuttujat vaikuttavat ja miten muuttujat korreloivat. Tällaisen tiedon antavat tärkeimmät osatekijät (kaavio alla). Näitä lastausvektoreita kutsutaan p1: ksi ja p2: ksi.,

alla olevassa kuvassa näkyvät kaikkien 20 muuttujan väliset suhteet samaan aikaan. Samankaltaista tietoa antavat muuttujat ryhmitellään yhteen, eli ne korreloivat keskenään. Rapea leipä (crips_br) ja pakastekala (Fro_Fish) ovat esimerkkejä kahdesta muuttujasta, jotka korreloivat positiivisesti keskenään. Kun yhden muuttujan numeerinen arvo kasvaa tai laskee, toisen muuttujan numeerisella arvolla on taipumus muuttua samalla tavalla.,

Kun muuttujat ovat negatiivisesti (”kääntäen”) korreloi, ne on sijoitettu vastakkaisille puolille tontin alkuperä, vinottain 0pposed neljännestä. Esimerkiksi muuttujat valkosipuli ja makeutusaine korreloivat käänteisesti, eli kun valkosipuli lisääntyy, makeutusaine vähenee ja päinvastoin.

PCA lastaus juoni kaksi ensimmäistä principal components (p2 vs p1) vertaamalla elintarvikkeita kulutetaan.,

Jos kaksi muuttujaa korreloi positiivisesti, kun numeerinen arvo yksi muuttuja kasvaa tai pienenee, numeerinen arvo toisella muuttujalla on taipumus muuttaa samalla tavalla.

lisäksi etäisyys alkuperään välittää myös tietoa. Mitä kauempana tontin alkuperästä on muuttuja, sitä voimakkaampi on muuttujan vaikutus malliin. Tämä tarkoittaa esimerkiksi sitä, että muuttujat näkkileipä (Crisp_br), jäädytetty kala (Fro_Fish), jäädytetyt kasvikset (Fro_Veg) ja valkosipuli (Valkosipuli) erottaa neljä Pohjoismaissa kuin muut., Neljä Pohjoismaat ovat ominaista ottaa korkea arvot (korkea kulutus) entisen kolmen säännöksiä, ja alhainen kulutus valkosipulia. Lisäksi malli tulkinta viittaa siihen, että maissa, kuten Italiassa, Portugalissa, Espanjassa ja jossain määrin myös Itävallan on korkea kulutus valkosipuli, ja alhainen kulutus makeutusaine, säilyke keitto (Ti_soup) ja tinattu hedelmiä (Ti_Fruit).

Geometrisesti, pääasiallinen komponentti kuormitukset ilmaista suunta malli kone K-ulotteinen muuttuja-avaruudessa., PC1: n suunnan suhteessa alkuperäisiin muuttujiin antaa kulmien A1, a2 ja a3 kosiini. Nämä arvot osoittavat, miten alkuperäiset muuttujat x1, x2 ja x3 ”latautuvat” (merkitys edistää) PC1: een. Siksi niitä kutsutaan loadingeiksi.

toinen kuormituskertoimien joukko ilmaisee PC2: n suunnan suhteessa alkuperäisiin muuttujiin. Näin ollen, kun otetaan huomioon kaksi Kpl ja kolme alkuperäisiä muuttujia, kuusi lastaus-arvot (kosini kulmat) on tarpeen määritellä, miten malli kone on sijoitettu K-avaruudessa.,

pääasiallinen komponentti kuormitukset paljastaa, miten KUMPPANUUS-ja yhteistyösopimuksen malli kone on asetettu muuttuja-avaruudessa. Loadingeja käytetään pisteiden merkityksen tulkitsemiseen.

Haluatko kokeilla sitä?

Ladata Ilmainen Kokeiluversio

Takaisin Blogin Yleiskatsaus

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *