주성분 분석(PCA)이란 무엇이며 어떻게 사용됩니까?

주요 구성 요소는 분석,또는 PCA,통계적할 수 있는 절차를 요약 정보 콘텐츠에 대형 테이블 데이터에 의한 작은 설정”의 요약 지수는”수 있는 더 쉽게 시각화 및 분석됩니다. 기초 데이터 수 있는 측정 속성을 설명하는 생산의 샘플을,화학 화합물 또는 반응,프로세스 시간이트의 지속적인 프로세스,배치에서 일괄 처리 프로세스,생물학 개인 또는 실험의 암컷 프로토콜,예를 들어.,

이 기사는 우리의 Sartorius 블로그에 게시됩니다.

를 사용하여 PCA 을 식별하는 데 도움이 될 수 있습 사이의 상관 관계 데이터 포인트는지 여부와 같은 사이의 상관 관계가 소비와 같은 식품 냉동 생선 및 빵에서 북유럽 국가입니다.

주성분 분석은 오늘날 가장 인기있는 다 변수 통계 기법 중 하나입니다. 그것은 널리 사용 되었습니다 분야에서의 패턴인식 및 신호 처리 및 통계적 방법에서 광범의 타이틀 요인 분석합니다.,

PCA 어머니는 방법에 대한 MVDA

PCA 의 기초를 형성한 다변량 데이터 분석을 기반으로 프로젝션 방법이 있습니다. 의 가장 중요한 사용 PCA 을 나타내는 변수 데이터를 테이블로 작은 설정한 변수(요약 지수)을 관찰하기 위해 트렌드는 점프,클러스터 특이하다. 이 개요는 관측치와 변수 사이의 관계와 변수 간의 관계를 밝힐 수 있습니다.

PCA 다 Cauchy 하지만 처음식에서 통계에 의 피어슨,누가 설명했 분석으로 찾는 것”라고 비행기의 가장 가까이에 맞게 시스템의 점에서 공간”.,

PCA 은 매우 유연한 도구 및 분석할 수 있습의 데이터가 포함될 수 있는,예를 들어,다중 공선성,누락된 값 범주형 데이터,그리고 부정확한 측정합니다. 목표는 데이터에서 중요한 정보를 추출하고이 정보를 주성분이라고하는 요약 지수 집합으로 표현하는 것입니다.

통계적으로 PCA 는 최소 제곱 의미에서 가능한 한 데이터를 근사하는 k 차원 공간에서 선,평면 및 하이퍼 평면을 찾습니다., 데이터 포인트 집합의 최소 제곱 근사 인 선 또는 평면은 선 또는 평면의 좌표의 분산을 가능한 한 크게 만듭니다.

PCA 를 만들고 시각화하는 데이터의 최소화 잔여 분산에서 최소 사각형 감각을 극대화하고의 분산을 투영 좌표입니다.

PCA 작동 방식

이전 기사에서는 PCA 에 대한 전처리 데이터가 필요한 이유를 설명했습니다. 이제 기하학적 접근 방식을 사용하여 PCA 가 어떻게 작동하는지 살펴 보겠습니다.,

n 행(일명”관측치”)과 K 열(일명”변수”)이있는 행렬 X 를 고려하십시오. 이 행렬의 경우 변수가있는만큼 많은 차원으로 변수 공간을 구성합니다(아래 그림 참조). 각 변수는 하나의 좌표축을 나타냅니다. 각 변수에 대해 길이는 일반적으로 단위 분산으로 스케일링하여 스케일링 기준에 따라 표준화되었습니다. 이전 블로그 게시물에서 단위 분산으로의 배율에 대한 자세한 내용을 확인할 수 있습니다.

K-치수 변수는 공간입니다., 단순화를 위해 세 개의 변수 축만 표시됩니다. 각 좌표축의”길이”는 특정 기준,일반적으로 단위 분산 스케일링에 따라 표준화되었습니다.

다음 단계에서 X-행렬의 각 관찰(행)은 K 차원 변수 공간에 배치됩니다. 결과적으로 데이터 테이블의 행은이 공간에서 점의 떼를 형성합니다.

관측(행)의 데이터 매트릭스×이해할 수 있으로 떼를 지점에서의 변수간(K-space).,

평균 센터링

다음으로 평균 센터링은 데이터에서 변수 평균의 빼기를 포함합니다. 평균의 벡터는 K-공간의 한 점에 해당합니다.

에서 평균을 중심으로 절차를 먼저 계산하는 변수는 평균입니다. 평균의이 벡터는 공간에서 점(여기서는 빨간색으로)으로 해석 할 수 있습니다. 점은 점 떼(무게 중심)의 중간에 위치합니다.,

빼기 평균의 데이터에 해당하는 다시 배치의 좌표계,이러한 평균점 지금은 기원합니다.

균-을 중심으로에 해당 절차를 움직이는 좌표계의 원점을 맞춰 평균점(여기서 적색).

첫 번째 주요 구성 요소

후미 중심에 두고한 스케일 단위의 분산,데이터는 설비에 대한 계산의 첫 번째 요약 인덱스의 첫 번째 주요 구성 요소(PC1)., 이 구성 요소는 최소 제곱 의미에서 데이터를 가장 잘 근사하는 K 차원 가변 공간의 선입니다. 이 선은 평균 점을 통과합니다. 각 관측치(노란색 점)는 이제 PC 선을 따라 좌표 값을 얻기 위해이 선에 투영 될 수 있습니다. 이 새로운 좌표 값을 점수라고도합니다.

첫 번째 주요 구성 요소(PC1)라는 최고의 계정에 대한 모양의점 swarm. 데이터의 최대 분산 방향을 나타냅니다., 각 관측치(노란색 점)는 PC 선을 따라 좌표 값을 얻기 위해이 선에 투영 될 수 있습니다. 이 값을 점수라고 합니다.

두 번째 주요 구성 요소

일반적으로,하나의 요약 지수 또는 주요 구성 요소가 부족한 모델을 체계적인 변화의 데이터를 설정합니다. 따라서 두 번째 주성분(PC2)인 두 번째 요약 지수가 계산됩니다. 두 번째 PC 는 또한 첫 번째 PC 와 직교하는 K 차원 가변 공간의 선으로 표시됩니다., 이 선은 또한 평균 점을 통과하고 X-데이터의 근사를 최대한 향상시킵니다.

두 번째 주요 구성 요소(PC2)향을 반영 하는 그런 것 두 번째로 큰 소스의 변화에서 데이터는 반면,직교하는 첫 번째 PC. PC2 는 또한 평균 지점을 통과합니다.

두 가지 주요 구성 요소를 정의한 모델 비행기

때 두 가지 주요 구성 요소 파생되고,그들은 함께를 정의하는 장소,창으로 K-치수 변수는 공간입니다., 모든 관측치를 저 차원 하위 공간에 투영하고 결과를 플로팅함으로써 조사 된 데이터 세트의 구조를 시각화 할 수 있습니다. 이 평면에 대한 관측치의 좌표 값을 점수라고하며,따라서 이러한 투영 된 구성의 플로팅을 점수 플롯이라고합니다.이 경우 두 개의 평면이 평면을 형성합니다. 이 평면은 그래픽으로 시각화 할 수있는 다차원 공간으로의 창입니다. 각 관측치는이 평면에 투영되어 각각에 대한 점수를 부여 할 수 있습니다.,

모델링 데이터 설정

지금 무엇을 고려 이처럼을 사용하여 데이터 세트 일반적으로 소비 하는 식품에서 다른 유럽 국가. 아래 그림은 처음 두 주요 구성 요소의 점수 플롯을 표시합니다. 이 점수를 t1 및 t2 라고합니다. 점수 플롯은 16 개국의지도입니다. 국가 서로 가까이 다른 비슷한 음식을 소비 프로파일하는 반면,그 지역에는 서로 비슷합니다., 북유럽 국가(핀란드,노르웨이,덴마크,스웨덴)에 위치에서 함께 오른쪽 상단,따라서 그룹을 대표하는 국가의 일부와 유사에서는 식품 소비가 있습니다. 벨기에와 독일은 플롯의 중심(원점)에 가깝기 때문에 평균 속성이 있음을 나타냅니다.

PCA 점수 플롯의 첫번째 두 개의 데이터 세트에 대한 식품 소비 프로필에 있습니다. 이것은 국가들이 서로 어떻게 관련되는지에 대한지도를 제공합니다. 첫 번째 구성 요소는 변화의 32%를 설명하고 두 번째 구성 요소는 19%를 설명합니다., 해당 수도의 지리적 위치(위도)에 의해 채색됩니다.

점수를 해석하는 방법을 플롯

에 PCA 모델을 가진 두 개의 구성 요소,즉,비행기에서 K-공간,는 변수(식품 규정)에 대한 책임은 본 패턴 사이에서 관찰(국가)? 우리는 어떤 변수가 영향력이 있는지,또한 변수가 어떻게 상호 연관되어 있는지 알고 싶습니다. 이러한 지식은 주성분로드(아래 그래프)에 의해 제공됩니다. 이러한 로딩 벡터를 p1 및 p2 라고합니다.,

아래 그림은 20 개의 모든 변수 간의 관계를 동시에 표시합니다. 유사한 정보에 기여하는 변수는 함께 그룹화되며,즉 상호 연관됩니다. 파삭 파삭 한 빵(crips_br)과 냉동 생선(Fro_Fish)은 양의 상관 관계가있는 두 변수의 예입니다. 한 변수의 수치 값이 증가하거나 감소하면 다른 변수의 수치 값이 같은 방식으로 변하는 경향이 있습니다.,

변수가 음(“반비례”)상관 관계가있는 경우 대각선으로 0pposed 사분면에서 플롯 원점의 반대쪽에 위치합니다. 예를 들어,이 변수는 마늘과 감미료 역으로 상관관계를 의미하는 경우 마늘 증가,감미료를 감소하고,그 반대입니다.

PCA 로드 플롯의 첫번째 두 가지 주요 구성 요소(p2 대 p1)비교하는 음식이 소모됩니다.,

경우 두 변수는 긍정적으로 상관관계,경우의 수치 하나의 변수가 증가 또는 감소의 숫자 값이 다른 변수는 변경에 동일한 방법입니다.

또한 원점까지의 거리도 정보를 전달합니다. 플롯 원점에서 변수가 멀어 질수록 변수가 모델에 미치는 영향이 강해집니다. 이 의미는,예를 들어,이 변수는 빵(Crisp_br),냉동 생선(Fro_Fish),냉동 야채(Fro_Veg)마늘(마늘)별도의 네 개의 북유럽 국가에서 다른 사람입니다., 네 북유럽 국가들은 특징을 갖는 높은 값(고비)의 전 세 가지 규정,그리고 낮은 소비의 마늘. 또한,모델의 해석을 제안하는 것과 같은 국가들이 이탈리아,포르투갈,스페인,어느 정도까지,오스트리아 높은 소비의 마늘,그리고 낮은 소비의 감미료,통조림 수프(Ti_soup)및 과일 통조림(Ti_Fruit).

기하학적으로 주성분 로딩은 K 차원 가변 공간에서 모델 평면의 방향을 표현합니다., 원래 변수와 관련하여 PC1 의 방향은 각도 a1,a2 및 a3 의 코사인에 의해 주어집니다. 이 값은 원래 변수 x1,x2 및 x3 이 PC1 에”로드”(의미)하는 방법을 나타냅니다. 따라서,그들은로드라고합니다.

두 번째 로딩 계수 세트는 원래 변수와 관련하여 PC2 의 방향을 표현합니다. 따라서,주어진 두 개 및 세 가지 원래의 변수를,여섯 로드 값(코사인의 각도)이 필요할 수 있는 방법을 지정하는 모형 비행기가에 위치해 있는 K-공간입니다.,

주요 구성 요소 적재를 발견하는 방법 PCA 모형 비행기에 삽입되는 변 공간입니다. 로딩은 점수의 의미를 해석하는 데 사용됩니다.

그것을 시도하고 싶습니까?

다운로드 무료 평가판

뒤를 블로그를 개요

Good Mood