analiza głównych składników, lub PCA, jest procedurą statystyczną, która pozwala podsumować zawartość informacji w dużych tabel danych za pomocą mniejszego zestawu „indeksów podsumowujących”, które mogą być łatwiej wizualizowane i analizowane. Podstawowymi danymi mogą być pomiary opisujące właściwości próbek produkcyjnych, związki chemiczne lub reakcje, punkty czasowe procesu ciągłego, partie z procesu wsadowego, osoby biologiczne lub próby protokołu DOE, na przykład.,
Ten artykuł znajduje się na naszym blogu Sartorius.
Korzystanie z PCA może pomóc w określeniu korelacji między punktami danych, na przykład, czy istnieje korelacja między spożywaniem żywności, takiej jak mrożone ryby i chrupki chleb w krajach skandynawskich.
Analiza składowa zasadnicza jest dziś jedną z najpopularniejszych wielowymiarowych technik statystycznych. Jest szeroko stosowany w dziedzinie rozpoznawania wzorców i przetwarzania sygnałów i jest metodą statystyczną pod szerokim tytułem analizy czynnikowej.,
PCA jest metodą macierzystą dla MVDA
PCA stanowi podstawę wielowymiarowej analizy danych opartej na metodach projekcji. Najważniejszym zastosowaniem PCA jest reprezentowanie wielowymiarowej tabeli danych jako mniejszego zbioru zmiennych (indeksów sumarycznych) w celu obserwacji trendów, skoków, klastrów i odstających. Ten przegląd może odkryć relacje między obserwacjami i zmiennymi oraz między zmiennymi.
PCA wraca do Cauchy ' ego, ale została po raz pierwszy sformułowana w statystyce przez Pearsona, który opisał analizę jako znajdowanie „linii i płaszczyzn najbliższego dopasowania do układów punktów w przestrzeni” .,
PCA jest bardzo elastycznym narzędziem i umożliwia analizę zbiorów danych, które mogą zawierać na przykład wielokolinearność, brakujące wartości, dane kategoryczne i nieprecyzyjne pomiary. Celem jest wyodrębnienie ważnych informacji z danych i wyrażenie tych informacji jako zbioru wskaźników sumarycznych zwanych głównymi składnikami.
statystycznie, PCA znajduje linie, płaszczyzny i hiper-płaszczyzny w przestrzeni K-wymiarowej, które przybliżają dane jak najlepiej w sensie najmniejszych kwadratów., Linia lub płaszczyzna, która jest najmniejszym przybliżeniem kwadratów zbioru punktów danych sprawia, że wariancja współrzędnych na linii lub płaszczyźnie jest tak duża, jak to możliwe.
PCA tworzy wizualizację danych, która minimalizuje wariancję resztkową w sensie najmniejszych kwadratów i maksymalizuje wariancję współrzędnych projekcji.
Jak działa PCA
w poprzednim artykule wyjaśniliśmy, dlaczego konieczne jest wstępne przetwarzanie danych dla PCA. Teraz przyjrzyjmy się, jak działa PCA, używając podejścia geometrycznego.,
rozważ macierz X Z N rzędami (aka” obserwacje”) i kolumnami K (aka „zmienne”). Dla tej macierzy konstruujemy przestrzeń zmienną o tylu wymiarach, ile jest zmiennych (patrz rysunek poniżej). Każda zmienna reprezentuje jedną oś współrzędnych. Dla każdej zmiennej długość została ustandaryzowana zgodnie z kryterium skalowania, zwykle przez skalowanie do wariancji jednostkowej. Więcej szczegółów na temat skalowania do wariancji jednostek znajdziesz w poprzednim wpisie na blogu.
K-wymiarowa przestrzeń zmienna., Dla uproszczenia wyświetlane są tylko trzy osie zmiennych. „Długość” każdej osi współrzędnych została znormalizowana zgodnie z określonym kryterium, Zwykle skalowaniem wariancji jednostkowej.
w następnym kroku każda obserwacja (wiersz) macierzy X jest umieszczana w K-wymiarowej przestrzeni zmiennej. W związku z tym wiersze w tabeli danych tworzą Rój punktów w tej przestrzeni.
obserwacje (wiersze) w macierzy danych X mogą być rozumiane jako Rój punktów w zmiennej przestrzeni (K-przestrzeni).,
średnie centrowanie
następnie średnie centrowanie polega na odejmowaniu średnich zmiennych od danych. Wektor średnich odpowiada punktowi w przestrzeni K.
w procedurze centrowania średnich najpierw oblicza się średnie zmienne. Ten wektor średnich jest interpretowany jako punkt (tutaj w kolorze czerwonym) w przestrzeni. Punkt znajduje się w środku roju punktowego(w środku ciężkości).,
odejmowanie średnich od danych odpowiada ponownemu pozycjonowaniu układu współrzędnych, tak że punktem średnim jest teraz początek.
procedura centrowania średniego odpowiada przesunięciu punktu początkowego układu współrzędnych, aby pokrywał się ze średnim punktem (tutaj na Czerwono).
pierwszy główny składnik
po średnim centrowaniu i skalowaniu do wariancji jednostkowej zestaw danych jest gotowy do obliczenia pierwszego wskaźnika sumarycznego, pierwszego głównego składnika (PC1)., Składowa ta jest linią W K-wymiarowej przestrzeni zmiennej, która najlepiej przybliża dane w sensie najmniejszych kwadratów. Ta linia przechodzi przez średni punkt. Każda obserwacja (żółta kropka) może być teraz rzutowana na tę linię, aby uzyskać wartość współrzędnych wzdłuż linii PC. Ta nowa wartość współrzędnych jest również znana jako wynik.
pierwszy główny składnik (PC1) to linia, która najlepiej odpowiada kształtowi roju punktów. Przedstawia maksymalny kierunek wariancji w danych., Każda obserwacja (żółta kropka) może być rzutowana na tę linię, aby uzyskać wartość współrzędnych wzdłuż linii PC. Wartość ta jest znana jako wynik.
drugi główny składnik
zwykle jeden indeks zbiorczy lub główny składnik jest niewystarczający do modelowania systematycznej zmienności zbioru danych. W ten sposób obliczany jest drugi indeks sumaryczny – drugi składnik główny (PC2). Drugi PC jest również reprezentowany przez linię W K-wymiarowej przestrzeni zmiennej, która jest ortogonalna do pierwszego PC., Linia ta również przechodzi przez punkt średni i poprawia przybliżenie danych X w jak największym stopniu.
drugi główny komponent (PC2) jest zorientowany tak, że odzwierciedla drugie co do wielkości źródło zmienności danych, będąc jednocześnie ortogonalnym do pierwszego komputera. PC2 przechodzi również przez średni punkt.
dwa główne składniki definiują płaszczyznę modelu
gdy wyprowadzone zostały dwa główne składniki, razem definiują miejsce, okno Na K-wymiarową przestrzeń zmienną., Rzutując wszystkie obserwacje na niskowymiarową sub-przestrzeń i wykreślając wyniki, możliwe jest wizualizowanie struktury badanego zbioru danych. Wartości współrzędnych obserwacji na tej płaszczyźnie są nazywane punktami, a zatem kreślenie takiej projektowanej konfiguracji jest znane jako wykres punktowy.
dwa komputery tworzą płaszczyznę. Płaszczyzna ta jest oknem na wielowymiarową przestrzeń, którą można wizualizować graficznie. Każda obserwacja może być rzutowana na tę płaszczyznę, dając wynik dla każdej.,
Modelowanie zbioru danych
teraz zastanówmy się, jak to wygląda, wykorzystując zestaw danych żywności powszechnie spożywanej w różnych krajach europejskich. Poniższy rysunek przedstawia wykres punktowy dwóch pierwszych głównych składników. Wyniki te nazywane są t1 i t2. Wykres punktowy to mapa 16 krajów. Kraje blisko siebie mają podobne profile konsumpcji żywności, podczas gdy te odległe od siebie różnią się od siebie., Kraje skandynawskie (Finlandia, Norwegia, Dania i Szwecja) znajdują się razem w prawym górnym rogu, reprezentując tym samym grupę narodów o pewnym podobieństwie w spożyciu żywności. Belgia i Niemcy są blisko centrum (pochodzenia) działki, co wskazuje, że mają średnie właściwości.
wykres wyników PCA pierwszych dwóch komputerów zestawu danych o profilach konsumpcji żywności. To zapewnia mapę tego, jak kraje odnoszą się do siebie. Pierwszy składnik wyjaśnia 32% zmienności, a drugi składnik 19%., Kolorowany według położenia geograficznego (szerokości geograficznej) danej stolicy.
Jak zinterpretować wykres punktowy
w modelu PCA z dwoma składowymi, czyli płaszczyzną w przestrzeni K, które zmienne (przepisy żywnościowe) odpowiadają za wzory widoczne wśród obserwacji (państw)? Chcielibyśmy wiedzieć, które zmienne są wpływowe, a także jak zmienne są skorelowane. Taka wiedza jest podana przez główne obciążenia składowe(wykres poniżej). Wektory te nazywane są p1 i p2.,
poniższy rysunek Wyświetla relacje między wszystkimi 20 zmiennymi w tym samym czasie. Zmienne wnoszące podobne informacje są zgrupowane razem, to znaczy są skorelowane. Chrupki chleb (crips_br) i mrożone ryby (Fro_Fish) są przykładami dwóch zmiennych, które są pozytywnie skorelowane. Gdy wartość liczbowa jednej zmiennej wzrasta lub maleje, wartość liczbowa drugiej zmiennej ma tendencję do zmiany w ten sam sposób.,
Gdy zmienne są ujemnie („odwrotnie”) skorelowane, są one umieszczone po przeciwnych stronach początku wykresu, w kwadrantach o przekątnej 0. Na przykład zmienne czosnek i słodzik są odwrotnie skorelowane, co oznacza, że gdy czosnek rośnie, słodzik maleje i odwrotnie.
PCA ładuje Wykres dwóch pierwszych głównych składników (p2 vs p1) porównując spożywaną żywność.,
Jeśli dwie zmienne są dodatnio skorelowane, gdy wartość liczbowa jednej zmiennej wzrasta lub zmniejsza się, wartość liczbowa drugiej zmiennej ma tendencję do zmiany w ten sam sposób.
ponadto odległość do źródła przekazuje również informacje. Im dalej od punktu wyjścia znajduje się zmienna, tym silniejszy jest wpływ tej zmiennej na model. Oznacza to na przykład, że zmienne chrupki chleb (Crisp_br), mrożone ryby (Fro_Fish), mrożone warzywa (Fro_Veg) i czosnek (Garlic) oddzielają cztery kraje skandynawskie od pozostałych., Cztery kraje skandynawskie charakteryzują się wysoką wartością (wysoką konsumpcją) poprzednich trzech przepisów i niskim spożyciem czosnku. Ponadto modelowa interpretacja sugeruje, że kraje takie jak Włochy, Portugalia, Hiszpania i do pewnego stopnia Austria mają wysokie spożycie czosnku i niskie spożycie substancji słodzących, zupy konserwowej (Ti_soup) i owoców konserwowych (Ti_Fruit).
geometrycznie główne obciążenia składowe wyrażają orientację płaszczyzny modelu w K-wymiarowej przestrzeni zmiennej., Kierunek PC1 w stosunku do pierwotnych zmiennych jest określony przez cosinus kątów a1, a2 i a3. Wartości te wskazują, w jaki sposób oryginalne zmienne x1, x2 i x3 „ładują” się do (czyli przyczyniają się do) PC1. Stąd nazywa się je obciążeniami.
drugi zestaw współczynników obciążenia wyraża kierunek PC2 w stosunku do pierwotnych zmiennych. Stąd, biorąc pod uwagę dwa PCs i trzy zmienne pierwotne, potrzebne jest sześć wartości obciążenia (cosinus kątów), aby określić, jak płaszczyzna modelu jest umieszczona w przestrzeni K.,
główne obciążenia komponentów odkrywają, w jaki sposób płaszczyzna modelu PCA jest wstawiana do zmiennej przestrzeni. Obciążenia są używane do interpretacji znaczenia partytur.
chcesz spróbować?
Pobierz bezpłatną wersję próbną
Powrót Do Przeglądu bloga