fő komponens elemzés, vagy PCA, egy statisztikai eljárás, amely lehetővé teszi, hogy összefoglalja az információs tartalom nagy adattáblák segítségével egy kisebb sor “összefoglaló indexek”, hogy könnyebben láthatóvá és elemezhető. Az alapul szolgáló adatok lehetnek a termelési minták, kémiai vegyületek vagy reakciók tulajdonságait leíró mérések, a folyamatos folyamat folyamat feldolgozási időpontjai, tételes folyamatok tételei, biológiai egyének vagy például egy DOE-protokoll kísérletei.,
Ez a cikk a Sartorius blogunkon található.
a PCA használata segíthet azonosítani az adatpontok közötti összefüggéseket, például azt, hogy van-e összefüggés az olyan élelmiszerek fogyasztása között, mint a fagyasztott hal és a ropogós kenyér a skandináv országokban.
fő komponens elemzés ma az egyik legnépszerűbb többváltozós statisztikai technikák. Széles körben használják a mintafelismerés és a jelfeldolgozás területén, és statisztikai módszer a faktoranalízis cím alatt.,
a PCA az MVDA anyamódszere
a PCA a vetítési módszereken alapuló többváltozós Adatelemzés alapját képezi. A PCA legfontosabb alkalmazása egy többváltozós adattábla kisebb változókészletként (összefoglaló indexek) való ábrázolása a trendek, ugrások, klaszterek és kiugró értékek megfigyelése érdekében. Ez az áttekintés feltárhatja a megfigyelések és változók, valamint a változók közötti összefüggéseket.
a PCA visszatér Cauchy-hoz, de először Pearson fogalmazta meg a statisztikákban, aki az elemzést úgy írta le, hogy “az űrben lévő pontok rendszereihez legközelebb álló vonalak és síkok” .,a
PCA egy nagyon rugalmas eszköz, amely lehetővé teszi olyan adatkészletek elemzését, amelyek tartalmazhatnak például multicollinearitást, hiányzó értékeket, kategorikus adatokat és pontatlan méréseket. A cél az, hogy az adatokból kinyerjük a fontos információkat, és ezt az információt a fő összetevőknek nevezett összefoglaló indexek halmazaként fejezzük ki.
statisztikailag a PCA olyan vonalakat, síkokat és hipersíkokat talál a K-dimenziós térben, amelyek az adatokat a lehető legkisebb négyzet értelemben közelítik meg., A vonal vagy sík, amely a legkisebb négyzetek közelítése egy sor adatpont teszi a variancia a koordináták A vonal vagy sík a lehető legnagyobb.
hogyan működik a PCA
egy korábbi cikkben elmagyaráztuk, miért van szükség a PCA előzetes kezelésére. Most nézzük meg, hogyan működik a PCA geometriai megközelítés alkalmazásával.,
tekintsünk egy X mátrixot N sorokkal (más néven “megfigyelések”) és K oszlopokkal (más néven”változók”). Ehhez a mátrixhoz egy változó teret építünk annyi dimenzióval, mint vannak változók (lásd az alábbi ábrát). Minden változó egy koordinátatengelyt képvisel. Minden változó esetében a hosszúságot méretezési kritérium szerint szabványosították, általában az egység varianciájára méretezve. Az előző blogbejegyzésben további részleteket talál az egység varianciára történő méretezésről.
A K-dimenziós változótér., Az egyszerűség kedvéért csak három változótengely jelenik meg. Az egyes koordináta-tengelyek” hosszát ” egy adott kritérium szerint szabványosították, általában egység variancia méretezés.
a következő lépésben az X-mátrix minden megfigyelése (sora) a K-dimenziós változó térbe kerül. Következésképpen az adattáblázat sorai pontok raját alkotják ebben a térben.
az X adatmátrixban található megfigyelések (sorok) a változó térben (k-tér) lévő pontok rajaként értelmezhetők.,
átlagos Központosítás
ezután az átlagos Központosítás magában foglalja a változó átlagok kivonását az adatokból. Az átlagok vektorja megfelel a K-tér egy pontjának.
Az átlagos központosítási eljárás során először kiszámítja a változó átlagait. Ez a vektor átlagok értelmezhető, mint egy pont (itt piros) az űrben. A pont közepén helyezkedik el a pont raj (a súlypont).,
az átlagok kivonása az adatokból megfelel a koordináta-rendszer újbóli pozicionálásának, oly módon, hogy az átlagos pont most az eredet.
A visszatérítő eljárást megfelel mozog az eredete a koordináta-rendszerben, hogy egybeesnek az átlagos pont (itt a piros).
Az első fő eleme
Miután azt jelenti,-középre, majd méretezéssel egység variancia, az adatok kész a számítás az első összefoglaló index, az első fő komponens (PC1)., Ez az összetevő a K-dimenziós változó tér azon vonala, amely legjobban megközelíti az adatokat a legkisebb négyzetek értelemben. Ez a vonal átmegy az átlagos ponton. Minden megfigyelés (sárga pont) most vetíthető erre a sorra annak érdekében, hogy egy koordinátaértéket kapjunk a PC-vonal mentén. Ez az új koordináta érték is ismert, mint a pontszám.
az első fő összetevő (PC1) az a vonal, amely a legjobban megfelel a pontraj alakjának. Ez az adatok maximális szórásirányát jelenti., Minden megfigyelés (sárga pont) lehet vetíteni erre a vonalra annak érdekében, hogy egy koordinátaértéket a PC-vonal mentén. Ez az érték ismert, mint egy pontszámot.
A második fő összetevő
általában egy összefoglaló index vagy fő összetevő nem elegendő az adatkészlet szisztematikus változásának modellezéséhez. Így kiszámítják a második összefoglaló indexet – egy második fő komponenst (PC2). A második PC-t a K-dimenziós változó térben lévő vonal is képviseli, amely ortogonális az első PC-hez., Ez a vonal áthalad az átlagponton is, és a lehető legnagyobb mértékben javítja az X-adatok közelítését.
a második fő összetevő (PC2) úgy van orientálva, hogy tükrözi az adatok második legnagyobb variációs forrását, miközben ortogonális az első PC-re. A PC2 az átlagos ponton is áthalad.
két fő összetevő definiálja a
modellsíkot, amikor két fő összetevő származik, együtt definiálnak egy helyet, egy ablakot a K-dimenziós változó térbe., Az összes megfigyelést az alacsony dimenziós altérre vetítve, az eredmények ábrázolásával lehetőség van a vizsgált adathalmaz szerkezetének megjelenítésére. Az ezen a síkon végzett megfigyelések koordinátaértékeit pontszámoknak nevezzük, ezért egy ilyen tervezett konfiguráció ábrázolása pontozási telekként ismert.
két db sík. Ez a sík egy ablak a többdimenziós térbe, amely grafikusan megjeleníthető. Minden megfigyelés lehet vetíteni erre a síkra, így a pontszám minden.,
adatkészlet modellezése
most nézzük meg, hogy néz ki ez a különböző európai országokban általánosan fogyasztott élelmiszerek adatkészletének felhasználásával. Az alábbi ábra az első két fő összetevő pontszámtáblázatát jeleníti meg. Ezeket a pontszámokat t1-nek és T2-nek hívják. A pontszám telek 16 ország térképe. Az egymáshoz közel álló országok hasonló élelmiszer-fogyasztási profilokkal rendelkeznek, míg az egymástól távoliak eltérőek., A skandináv országok (Finnország, Norvégia, Dánia és Svédország) együtt helyezkednek el a jobb felső sarokban, így olyan nemzetek csoportját képviselik, amelyek valamilyen hasonlóságot mutatnak az élelmiszerfogyasztásban. Belgium és Németország közel van a telek központjához (eredetéhez), ami azt jelzi, hogy átlagos tulajdonságaik vannak.
az élelmiszer-fogyasztási profilokról szóló adatkészlet első két PC-jének PCA-ponttáblázata. Ez egy térképet ad arról, hogy az országok hogyan viszonyulnak egymáshoz. Az első komponens a variáció 32% – át, a második komponens 19% – át magyarázza., Színezett földrajzi elhelyezkedése (szélesség) az adott főváros.
hogyan értelmezzük a pontozási cselekményt
egy két komponensű PCA modellben, azaz egy sík a K-térben, mely változók (élelmiszer-rendelkezések) felelősek a megfigyelések (országok) között látható mintákért? Szeretnénk tudni, hogy mely változók befolyásolják a változókat, valamint azt is, hogy a változók hogyan korrelálnak. Az ilyen ismereteket a fő komponens terhelések adják (az alábbi grafikon). Ezeket a betöltő vektorokat P1-nek és P2-nek hívják.,
az alábbi ábra mind a 20 változó közötti összefüggéseket jeleníti meg egyszerre. A hasonló információkat hozzájáruló változók csoportosításra kerülnek, vagyis korrelálnak. A ropogós kenyér (crips_br) és a fagyasztott hal (Fro_Fish) két pozitív korrelációt mutató változóra példa. Amikor egy változó numerikus értéke növekszik vagy csökken, a másik változó numerikus értéke ugyanúgy változik.,
Ha a változók negatívan (“fordítottan”) korrelálnak, akkor a telek eredetének ellentétes oldalán helyezkednek el, átlósan 0pposed negyedekben. Például a fokhagyma és édesítőszer változók fordítottan korrelálnak egymással, ami azt jelenti, hogy amikor a fokhagyma nő, az édesítőszer csökken, és fordítva.
PCA az első két fő összetevő (p2 vs p1) betöltési rajza, összehasonlítva az elfogyasztott ételeket.,
ha két változó pozitívan korrelál, amikor egy változó numerikus értéke növekszik vagy csökken, a másik változó numerikus értéke ugyanúgy változik.
továbbá az eredettől való távolság információkat is közvetít. Minél távolabb van a telek eredetétől egy változó, annál erősebb a változó hatása a modellre. Ez például azt jelenti, hogy a ropogós kenyér (Crisp_br), a fagyasztott hal (Fro_Fish), a fagyasztott zöldség (Fro_Veg) és a fokhagyma (fokhagyma) változók elkülönítik a négy skandináv országot a többitől., A négy skandináv országot az jellemzi, hogy a korábbi három rendelkezés magas értékei (magas fogyasztás), valamint a fokhagyma alacsony fogyasztása. Ezenkívül a modell értelmezése azt sugallja, hogy az olyan országok, mint Olaszország, Portugália, Spanyolország és bizonyos mértékig Ausztria, magas fokhagymafogyasztással rendelkeznek, valamint alacsony az édesítőszer, a konzervleves (Ti_soup) és a konzervgyümölcs (Ti_Fruit) fogyasztása.
geometriailag a fő komponens terhelések kifejezik a modell sík tájolását a K-dimenziós változó térben., A PC1 irányát az eredeti változókhoz viszonyítva az A1, a2 és A3 szög koszinusza adja. Ezek az értékek azt jelzik, hogy az eredeti x1, x2 és x3 változók hogyan “töltődnek be” (vagyis hozzájárulnak) PC1-be. Ezért ezeket terhelésnek nevezik.
a második terhelési együtthatók kifejezik a PC2 irányát az eredeti változókhoz képest. Ezért a két db és három eredeti változót figyelembe véve hat terhelési értékre (szögek koszinuszára) van szükség annak meghatározásához, hogy a modell síkja hogyan helyezkedik el a K-térben.,
a fő komponens terhelések feltárják, hogy a PCA modellsík hogyan kerül be a változó térbe. A terheléseket a pontszámok értelmezésére használják.
szeretné kipróbálni?
ingyenes próbaverzió letöltése
vissza a Blog áttekintéséhez