Principal component analysis, of PCA, is een statistische procedure die het mogelijk maakt om de inhoud van de informatie in grote gegevenstabellen samen te vatten door middel van een kleinere reeks “samenvattende indices” die gemakkelijker kunnen worden gevisualiseerd en geanalyseerd. De onderliggende gegevens kunnen metingen zijn die eigenschappen beschrijven van productiemonsters, chemische verbindingen of reacties, procestijdpunten van een continu proces, batches van een batchproces, biologische individuen of proeven van een DOE-protocol, bijvoorbeeld.,
Dit artikel is geplaatst op onze Sartorius Blog.
het gebruik van PCA kan helpen correlaties tussen gegevenspunten te identificeren, zoals de vraag of er een correlatie is tussen de consumptie van voedsel zoals bevroren vis en knapperig brood in Scandinavische landen.
Hoofdcomponentanalyse is vandaag de dag een van de meest populaire multivariate statistische technieken. Het is wijd gebruikt op het gebied van patroonherkenning en signaalverwerking en is een statistische methode onder de brede titel van factoranalyse.,
PCA is de moedermethode voor MVDA
PCA vormt de basis van multivariate data-analyse op basis van projectiemethoden. Het belangrijkste gebruik van PCA is om een multivariate gegevenstabel weer te geven als kleinere verzameling variabelen (samenvattende indices) om trends, sprongen, clusters en uitschieters te observeren. Dit overzicht kan de relaties tussen waarnemingen en variabelen blootleggen, en tussen de variabelen.
PCA gaat terug tot Cauchy, maar werd voor het eerst geformuleerd in statistieken door Pearson, die de analyse beschreef als het vinden van “lijnen en vlakken die het dichtst passen bij systemen van punten in de ruimte” .,
PCA is een zeer flexibel instrument en maakt analyse mogelijk van datasets die bijvoorbeeld multicollineariteit, ontbrekende waarden, categorische gegevens en onnauwkeurige metingen kunnen bevatten. Het doel is om de belangrijke informatie uit de gegevens te halen en om deze informatie uit te drukken als een reeks samenvattende indices genaamd principal components.
statistisch vindt PCA lijnen, vlakken en hyper-vlakken in de k-dimensionale ruimte die de gegevens zo goed mogelijk benaderen in de kleinste kwadraten zin., Een lijn of vlak dat de kleinste kwadraten benadering van een verzameling van datapunten maakt de variantie van de coördinaten op de lijn of het vlak zo groot mogelijk.
PCA creëert een visualisatie van gegevens die de resterende variantie in de kleinste kwadraten betekenis minimaliseert en de variantie van de projectiecoördinaten maximaliseert.
hoe PCA werkt
in een vorig artikel hebben we uitgelegd waarom voorbehandeling van gegevens voor PCA noodzakelijk is. Laten we nu eens kijken hoe PCA werkt, met behulp van een geometrische benadering.,
beschouw een matrix X met n rijen (ook bekend als “observaties”) en K kolommen (ook bekend als”variabelen”). Voor deze matrix construeren we een variabele ruimte met evenveel dimensies als er variabelen zijn (zie figuur hieronder). Elke variabele vertegenwoordigt één coördinaatas. Voor elke variabele is de lengte gestandaardiseerd volgens een schaalcriterium, normaal gesproken door te schalen naar eenheidsvariantie. In de vorige blogpost vindt u meer informatie over schalen naar eenheidsvariantie.
een K-dimensionale variabele ruimte., Voor de eenvoud worden slechts drie variabelen Assen weergegeven. De “lengte” van elke coördinaatas is gestandaardiseerd volgens een specifiek criterium, meestal eenheidsvariantieschaling.
In de volgende stap wordt elke waarneming (rij) van de x-matrix in de k-dimensionale variabele ruimte geplaatst. Bijgevolg vormen de rijen in de gegevenstabel een zwerm punten in deze ruimte.
de waarnemingen (rijen) in de gegevensmatrix X kunnen worden begrepen als een zwerm punten in de variabele ruimte (K-ruimte).,
gemiddelde centrering
vervolgens worden de variabele gemiddelden van de gegevens afgetrokken. De vector van gemiddelden komt overeen met een punt in de k-ruimte.
in de middelste procedure berekent u eerst de variabele gemiddelden. Deze vector van gemiddelden is interpreteerbaar als een punt (hier in rood) in de ruimte. Het punt bevindt zich in het midden van de puntzwerm (in het zwaartepunt).,
het aftrekken van de gemiddelden van de gegevens komt overeen met een herpositionering van het coördinatenstelsel, zodat het gemiddelde punt nu de oorsprong is.
De gemiddelde centrering procedure komt overeen met het verplaatsen van de oorsprong van het coördinatenstelsel om samen te vallen met het gemiddelde punt (hier in rood).
de eerste hoofdcomponent
na middelmatige centrering en schaling naar eenheidsvariantie is de gegevensverzameling klaar voor berekening van de eerste samenvattende index, de eerste hoofdcomponent (PC1)., Deze component is de lijn in de k-dimensionale variabele ruimte die de gegevens het beste benadert in de kleinste kwadraten zin. Deze lijn gaat door het gemiddelde punt. Elke waarneming (gele stip) kan nu op deze lijn worden geprojecteerd om een coördinaatwaarde langs de PC-lijn te krijgen. Deze nieuwe coördinaatwaarde wordt ook wel de score genoemd.
de eerste hoofdcomponent (PC1) is de regel die het beste de vorm van de puntzwarm aangeeft. Het vertegenwoordigt de maximale variantie richting in de gegevens., Elke waarneming (gele stip) kan op deze lijn worden geprojecteerd om een coördinaatwaarde langs de PC-lijn te krijgen. Deze waarde staat bekend als een score.
de tweede hoofdcomponent
Gewoonlijk is één samenvattende index of hoofdcomponent onvoldoende om de systematische variatie van een gegevensverzameling te modelleren. Zo wordt een tweede samenvattende index – een tweede hoofdcomponent (PC2) – berekend. De tweede PC wordt ook vertegenwoordigd door een lijn in de k-dimensionale variabele ruimte, die loodrecht is op de eerste PC., Deze lijn gaat ook door het gemiddelde punt, en verbetert de benadering van de x-gegevens zo veel mogelijk.
het tweede hoofdcomponent (PC2) is zodanig georiënteerd dat het de op een na grootste bron van variatie in de gegevens weerspiegelt, terwijl het orthogonaal is ten opzichte van de eerste PC. PC2 passeert ook het gemiddelde punt.
twee hoofdcomponenten definiëren een modelvlak
wanneer twee hoofdcomponenten zijn afgeleid, definiëren ze samen een plaats, een venster in de k-dimensionale variabele ruimte., Door alle waarnemingen te projecteren op de laagdimensionale subruimte en de resultaten te plotten, is het mogelijk om de structuur van de onderzochte dataset te visualiseren. De coördinaatwaarden van de waarnemingen op dit vlak worden scores genoemd, en daarom staat het plotten van zo ‘ n geprojecteerde configuratie bekend als een score plot.
twee pc ‘ s vormen een vlak. Dit vlak is een venster in de multidimensionale ruimte, die grafisch kan worden gevisualiseerd. Elke waarneming kan op dit vlak worden geprojecteerd, waarbij voor elke waarneming een score wordt gegeven.,
modelleren van een gegevensset
nu, laten we eens kijken hoe dit eruit ziet met behulp van een gegevensset van voedingsmiddelen die vaak worden geconsumeerd in verschillende Europese landen. De figuur hieronder toont de score plot van de eerste twee belangrijkste componenten. Deze scores worden t1 en t2 genoemd. De score plot is een kaart van 16 landen. Landen dicht bij elkaar hebben vergelijkbare voedselconsumptieprofielen, terwijl die ver van elkaar verschillen., De Noordse landen (Finland, Noorwegen, Denemarken en Zweden) bevinden zich samen in de rechterbovenhoek en vertegenwoordigen dus een groep landen met enige gelijkenis in voedselconsumptie. België en Duitsland liggen dicht bij het centrum (oorsprong) van het perceel, wat aangeeft dat ze gemiddelde eigenschappen hebben.
de PCA-score van de eerste twee pc ‘ s van een gegevensverzameling over voedselconsumptieprofielen. Dit geeft een kaart van hoe de landen zich tot elkaar verhouden. De eerste component verklaart 32% van de variatie, en de tweede component 19%., Gekleurd door geografische locatie (breedtegraad) van de respectieve hoofdstad.
hoe interpreteer je het Scoreplot
In een PCA-model met twee componenten, dat wil zeggen een vlak in de K-ruimte, welke variabelen (voedselvoorzieningen) zijn verantwoordelijk voor de patronen die worden waargenomen tussen de waarnemingen (landen)? We willen graag weten welke variabelen invloed hebben, en ook hoe de variabelen gecorreleerd zijn. Deze kennis wordt gegeven door de belangrijkste component belastingen (grafiek hieronder). Deze laadvectoren worden p1 en p2 genoemd.,
onderstaande figuur toont de relaties tussen alle 20 variabelen tegelijkertijd. Variabelen die vergelijkbare informatie leveren worden gegroepeerd, dat wil zeggen, ze zijn gecorreleerd. Crisp bread (crips_br) en frozen fish (Fro_Fish) zijn voorbeelden van twee variabelen die positief gecorreleerd zijn. Wanneer de numerieke waarde van een variabele toeneemt of afneemt, heeft de numerieke waarde van de andere variabele de neiging om op dezelfde manier te veranderen.,
wanneer variabelen negatief (“omgekeerd”) gecorreleerd zijn, worden ze geplaatst aan weerszijden van de plot oorsprong, in diagonaal 0-tegenover elkaar liggende kwadranten. Bijvoorbeeld, de variabelen knoflook en zoetstof zijn omgekeerd gecorreleerd, wat betekent dat wanneer knoflook toeneemt, zoetstof afneemt, en vice versa.
PCA-laadperceel van de eerste twee hoofdbestanddelen (p2 vs p1) die verbruikte levensmiddelen vergelijken.,
als twee variabelen positief gecorreleerd zijn, wanneer de numerieke waarde van een variabele toeneemt of afneemt, heeft de numerieke waarde van de andere variabele de neiging om op dezelfde manier te veranderen.
Bovendien geeft de afstand tot de oorsprong ook informatie. Hoe verder weg van de plot oorsprong een variabele ligt, hoe sterker de impact die variabele heeft op het model. Dit betekent bijvoorbeeld dat de variabelen knapperig brood (Crisp_br), bevroren vis (Fro_Fish), bevroren groenten (Fro_Veg) en knoflook (knoflook) de vier Scandinavische landen scheiden van de andere., De vier Scandinavische landen worden gekenmerkt door hoge waarden (hoge consumptie) van de vroegere drie Bepalingen en een lage consumptie van knoflook. Bovendien suggereert de modelinterpretatie dat landen als Italië, Portugal, Spanje en tot op zekere hoogte Oostenrijk een hoge consumptie van knoflook en een lage consumptie van zoetstof, soep in blik (Ti_soup) en fruit in blik (Ti_Fruit) hebben.
Geometrisch drukt de belasting van de hoofdcomponent de oriëntatie van het modelvlak in de k-dimensionale variabele ruimte uit., De richting van PC1 ten opzichte van de oorspronkelijke variabelen wordt gegeven door de cosinus van de hoeken a1, a2 en a3. Deze waarden geven aan hoe de oorspronkelijke variabelen x1, x2 en x3 “laden” in (wat betekent bijdragen aan) PC1. Daarom worden ze belastingen genoemd.
de tweede reeks belastingscoëfficiënten drukt de richting van PC2 ten opzichte van de oorspronkelijke variabelen uit. Gezien de twee PCs en de drie oorspronkelijke variabelen zijn er dus zes belastingwaarden (cosinus van hoeken) nodig om aan te geven hoe het modelvlak zich in de k-ruimte bevindt.,
De hoofdcomponentlading laat zien hoe het PCA-modelvlak in de variabele ruimte wordt ingevoegd. De belasting wordt gebruikt voor het interpreteren van de Betekenis van de partituren.
wilt u het proberen?
Download een gratis proefversie
terug naar blogoverzicht