analýza Hlavních komponent, nebo PCA, je statistický postup, který umožňuje shrnout obsah informací v rozsáhlých datových tabulek pomocí menší soubor „souhrnné indexy“, které mohou být snadno vizualizovány a analyzovány. Podkladová data mohou být měření popisující vlastnosti výrobních vzorků, chemické sloučeniny nebo reakce, proces, čas body kontinuální proces, šarže od šarže proces, biologických jedinců nebo zkoušky DOE-protokol, například.,
tento článek je zveřejněn na našem blogu Sartorius.
Pomocí PCA může pomoci identifikovat korelace mezi datové body, jako například, zda existuje korelace mezi konzumací potravin, jako mražené ryby a křupavý chléb v Severských zemích.
Hlavní analýza komponent je dnes jednou z nejpopulárnějších vícerozměrných statistických technik. To bylo široce používán v oblasti rozpoznávání a zpracování signálu a je statistická metoda, pod obecným názvem faktorové analýzy.,
PCA je mateřská metoda pro mvda
PCA tvoří základ vícerozměrné analýzy dat založené na projekčních metodách. Nejdůležitější použití PCA je představují vícerozměrné datové tabulce jako menší soubor proměnných (souhrnné indexy) s cílem sledovat trendy, skoky, klastrů a odlehlé hodnoty. Tento přehled může odhalit vztahy mezi pozorováními a proměnnými a mezi proměnnými.
PCA se vrací do Cauchy, ale byl nejprve formulován ve statistikách Pearsonem, který popsal analýzu jako nalezení „linií a rovin nejblíže k systémům bodů ve vesmíru“ .,
PCA je velmi flexibilní nástroj a umožňuje analýzu datových souborů, které mohou obsahovat, například, multikolinearita, chybějící hodnoty, kategoriální data, a nepřesné měření. Cílem je extrahovat důležité informace z dat a vyjádřit tyto informace jako sadu souhrnných indexů tzv. hlavních komponent.
statisticky, PCA najde čáry, roviny a hyper-roviny v k-dimenzionálním prostoru, které přibližují data, stejně jako je to možné v smyslu nejmenších čtverců., Čára nebo rovina, která je nejmenší čtverce aproximace sady datových bodů činí rozptyl souřadnic na lince nebo rovině tak velký, jak je to možné.
PCA vytváří vizualizace dat, která minimalizuje reziduální rozptyl v nejmenších čtverců smyslu a maximalizuje rozptyl projekce souřadnic.
jak PCA funguje
v předchozím článku jsme vysvětlili, proč je nutná předběžná léčba dat pro PCA. Nyní se podívejme na to, jak funguje PCA, pomocí geometrického přístupu.,
zvažte matici X S N řádky (aka“ pozorování“) a k sloupce (aka“proměnné“). Pro tuto matici vytvoříme proměnný prostor s tolika rozměry ,kolik je proměnných (viz obrázek níže). Každá proměnná představuje jednu souřadnicovou osu. Pro každou proměnnou byla délka standardizována podle měřítkového kritéria, obvykle škálováním na jednotkovou odchylku. Další podrobnosti o změně měřítka na rozptyl jednotek najdete v předchozím příspěvku na blogu.
a k-dimenzionální proměnný prostor., Pro jednoduchost jsou zobrazeny pouze tři osy proměnných. „Délka“ každé osy souřadnic byla standardizována podle konkrétního kritéria, obvykle škálování rozptylu jednotek.
V dalším kroku je každé pozorování (řádek) x-matice umístěno v k-dimenzionálním proměnném prostoru. V důsledku toho řádky v datové tabulce tvoří roj bodů v tomto prostoru.
pozorování (řádků) v datové matici X lze chápat jako roj bodů v proměnné prostoru (K-prostor).,
Střední Centrování
další střední Centrování zahrnuje odečtení průměrů proměnných z dat. Vektor průměrů odpovídá bodu v prostoru K.
V mysli-centrování postup, musíte nejprve vypočítat variabilní průměry. Tento vektor průměrů je interpretovatelný jako bod (zde červeně) v prostoru. Bod se nachází uprostřed bodového roje (v těžišti).,
odečítání průměrů z dat odpovídá opětovnému umístění souřadnicového systému, takže průměrný bod je nyní původ.
průměr-centrování postup odpovídá posunutí počátku souřadného systému, se shodovat s průměrem bodu (zde v červené barvě).
první hlavní komponenta
Po mysli-centrování a škálování jednotka rozptyl souboru dat je připraven pro výpočet první souhrnný index, první hlavní komponenta (PC1)., Tato složka je čára v k-dimenzionálním proměnném prostoru, která nejlépe přibližuje data ve smyslu nejmenších čtverců. Tento řádek prochází průměrným bodem. Každé pozorování (žlutá tečka) může být nyní promítnuto na tuto čáru, aby se získala hodnota souřadnic podél linie PC. Tato nová hodnota souřadnic je také známá jako skóre.
první hlavní komponenta (PC1) je přímka, která nejlépe účtů pro tvar bodu roj. Představuje maximální směr rozptylu v datech., Každé pozorování (žlutá tečka) může být promítnuto na tento řádek, aby se získala hodnota souřadnic podél linie PC. Tato hodnota je známá jako skóre.
druhá hlavní složka
obvykle jeden souhrnný index nebo hlavní složka nestačí k modelování systematické variace datové sady. Vypočítá se tedy druhý souhrnný index – druhá hlavní složka (PC2). Druhý počítač je také reprezentován čárou v k-dimenzionálním proměnném prostoru, který je ortogonální k prvnímu počítači., Tento řádek také prochází průměrným bodem a co nejvíce zlepšuje aproximaci x-dat.
druhá hlavní komponenta (PC2) je orientován tak, že odráží druhým největším zdrojem variability v datech, přičemž je ortogonální k prvnímu PC. PC2 také prochází průměrným bodem.
Dvě hlavní komponenty definovat model letadla
Když se dva hlavní komponenty byly odvozeny, které společně definují místo, okna do K-rozměrné proměnné prostoru., Promítnutím všech pozorování na low-dimenzionální sub-prostoru a zobrazování výsledků, je možné vizualizovat strukturu zkoumaného souboru údajů. Souřadnicové hodnoty pozorování v této rovině se nazývají skóre, a proto je Vykreslování takové předpokládané konfigurace známé jako skóre.
dva počítače tvoří rovinu. Tato rovina je okno do vícerozměrného prostoru, které lze graficky vizualizovat. Každé pozorování může být promítnuto do této roviny, což dává skóre pro každého.,
modelování datové sady
nyní zvažte, jak to vypadá pomocí datové sady potravin běžně konzumovaných v různých evropských zemích. Níže uvedený obrázek zobrazuje skóre prvních dvou hlavních složek. Tato skóre se nazývají t1 a t2. Score plot je mapa 16 zemí. Země blízko sebe mají podobné profily spotřeby potravin, zatímco ty, které jsou daleko od sebe, jsou odlišné., Severské země (Finsko, Norsko, Dánsko a Švédsko) jsou společně umístěny v pravém horním rohu, což představuje skupinu národů s některé podobnosti ve spotřebě potravin. Belgie a Německo jsou blízko centra (původu) pozemku, což naznačuje, že mají průměrné vlastnosti.
skóre PCA prvních dvou počítačů sady dat o profilech spotřeby potravin. To poskytuje mapu toho, jak se země vzájemně vztahují. První složka vysvětluje 32% variace a druhá složka 19%., Barevné podle geografické polohy (zeměpisné šířky) příslušného hlavního města.
jak interpretovat Graf skóre
v modelu PCA se dvěma složkami,tj. Chtěli bychom vědět, které proměnné mají vliv, a také jak jsou proměnné korelovány. Tyto znalosti jsou dány základním zatížením komponent (graf níže). Tyto nakládací vektory se nazývají p1 a p2.,
níže uvedený obrázek zobrazuje vztahy mezi všemi proměnnými 20 současně. Proměnné, které přispívají k podobným informacím, jsou seskupeny dohromady, to znamená, že jsou korelovány. Křupavý chléb (crips_br) a zmrazené ryby (Fro_Fish) jsou příklady dvou proměnných, které jsou pozitivně korelovány. Když se číselná hodnota jedné proměnné zvyšuje nebo snižuje, číselná hodnota druhé proměnné má tendenci se měnit stejným způsobem.,
když jsou proměnné negativně („nepřímo“) korelovány, jsou umístěny na protilehlých stranách původu spiknutí, v diagonálně 0pposed kvadranty. Například proměnné česnek a sladidlo jsou nepřímo korelovány, což znamená, že když se česnek zvyšuje,sladidlo klesá a naopak.
PCA loading plot prvních dvou hlavních složek (p2 vs p1) porovnávající konzumované potraviny.,
pokud jsou dvě proměnné pozitivně korelovány, když se číselná hodnota jedné proměnné zvyšuje nebo snižuje, číselná hodnota druhé proměnné má tendenci se měnit stejným způsobem.
kromě toho vzdálenost k původu také sděluje informace. Čím dále od zápletky vzniká proměnná, tím silnější je dopad, který má proměnná na model. To například znamená, že proměnné, křupavý chléb (Crisp_br), mražené ryby (Fro_Fish), mražené zeleniny (Fro_Veg) a česnek (Česnek) oddělit čtyři Severské země od ostatních., Čtyři severské země se vyznačují vysokými hodnotami (vysokou spotřebou) předchozích tří ustanovení a nízkou spotřebou česneku. Navíc, model výkladu vyplývá, že země jako Itálie, Portugalsko, Španělsko a do jisté míry Rakousko mají vysokou spotřebu česneku, a nízká spotřeba sladidla, konzervované polévky (Ti_soup) a konzervovaného ovoce (Ti_Fruit).
geometricky hlavní zatížení komponent vyjadřuje orientaci modelové roviny v k-dimenzionálním proměnném prostoru., Směr PC1 ve vztahu k původním proměnným je dán kosinem úhlů A1, a2 a a3. Tyto hodnoty ukazují, jak původní proměnné x1, x2 a x3 „načíst“ do (což znamená přispět k) PC1. Proto se nazývají zatížení.
druhá sada zatěžovacích koeficientů vyjadřuje směr PC2 ve vztahu k původním proměnným. Proto, vzhledem k tomu, dva Počítače a tři původní proměnné, šest načítání hodnoty (kosinus úhlů) je zapotřebí určit, jak má model letadla je umístěn v K-prostoru.,
hlavní složkou zatížení, odhalit, jak PCA model letadla je vložena v proměnné prostoru. Zatížení se používá k interpretaci významu skóre.
chcete to vyzkoušet?
Stáhněte si bezplatnou zkušební verzi
zpět na přehled blogů