Welcome to Our Website

主成分分析(PCA)とは何で、どのように使用されていますか?

主成分分析、またはPCAは、より簡単に視覚化および分析できるより小さな”要約指標”のセットによって、大きなデータテーブル内の情報コンテンツをまとめることを可能にする統計的手順である。 基礎となるデータは、製造サンプルの特性、化合物または反応、連続プロセスのプロセス時間ポイント、バッチプロセスからのバッチ、生物学的個体またはDOEプロトコルの試験などを記述する測定であり得る。,

この記事はSartoriusのブログに掲載されています。

PCAを使用すると、北欧諸国の冷凍魚やパンなどの食品の消費に相関があるかどうかなど、データポイント間の相関を特定できます。

今日の主成分分析は、最も人気のある多変量統計手法の一つです。 これは、パターン認識と信号処理の分野で広く使用されており、因子分析の広いタイトルの下で統計的手法です。,

PCAはMVDAのための母なる方法です

PCAは投影法に基づく多変量データ解析の基礎を形成します。 PCAの最も重要な用途は、傾向、ジャンプ、クラスター、外れ値を観察するために、多変量データテーブルをより小さな変数セット(要約指数)として表すことです。 この概要は、観測値と変数間、および変数間の関係を明らかにすることができます。

PCAはCauchyに戻りますが、Pearsonによって統計学で最初に定式化され、Pearsonは分析を”空間内の点のシステムに最も近い線と平面”を見つけると説明しました。,

PCAは非常に柔軟なツールであり、多重共線性、欠損値、カテゴリデータ、不正確な測定値などを含む可能性のあるデータセットの分析を可能にします。 目標は、データから重要な情報を抽出し、この情報を主成分と呼ばれる要約指標のセットとして表現することです。統計的には、PCAは、最小二乗の意味で可能な限りデータを近似するk次元空間内の線、平面、および超平面を検出します。, 一連のデータポイントの最小二乗近似である直線または平面は、直線または平面上の座標の分散をできるだけ大きくします。

PCAは、最小二乗の意味での残差分散を最小化し、投影座標の分散を最大化するデータの視覚化を作成します。

PCAの仕組み

前回の記事では、PCAのデータを前処理する必要がある理由について説明しました。 さて、幾何学的アプローチを使用して、PCAがどのように動作するかを見てみましょう。,n行(別名”観測値”)とK列(別名”変数”)を持つ行列Xを考えてみましょう。 この行列に対して、変数があるだけ多くの次元を持つ変数空間を構築します(下の図を参照)。 各変数は一つの座標軸を表します。 各変数について、長さは、通常、単位分散へのスケーリングによって、スケーリング基準に従って標準化されている。 前のブログ記事で単位分散へのスケーリングの詳細を見つけることができます。

K次元の変数空間。, 簡単にするために、三つの変数の軸のみが表示されます。 各座標軸の”長さ”は、特定の基準、通常は単位分散スケーリングに従って標準化されています。

次のステップでは、X行列の各観測値(行)がK次元変数空間に配置されます。 したがって、データテーブル内の行は、このスペース内のポイントの群れを形成します。

データ行列Xの観測値(行)は、変数空間(K空間)内の点の群れとして理解することができます。,

平均センタリング

次に、平均センタリングには、データから変数平均の減算が含まれます。 平均のベクトルは、K-空間の点に対応します。

平均センタリングプロシージャでは、まず変数の平均を計算します。 この平均のベクトルは、空間内の点(ここでは赤色)として解釈できます。 ポイントは、ポイント群の中央(重心)に位置しています。,

データからの平均の減算は、座標系の再配置に対応し、平均点が原点になるようになります。

平均センタリング手順は、座標系の原点を平均点(ここでは赤色)と一致するように移動することに対応します。

最初の主成分

平均センタリングと単位分散へのスケーリングの後、データセットは最初の要約指数、最初の主成分(PC1)の計算の準備ができています。, このコンポーネントは、最小二乗の意味でデータを最もよく近似するK次元変数空間内の線です。 この線は平均点を通過します。 PCラインに沿った座標値を得るために、各観測値(黄色の点)をこのラインに投影することができます。 この新しい座標値は、スコアとも呼ばれます。

最初の主成分(PC1)は、ポイント群の形状を最もよく説明する線です。 これは、データ内の最大分散の方向を表します。, PC線に沿った座標値を得るために、各観測値(黄色の点)をこの線上に投影することができる。 この値はスコアと呼ばれます。

第二の主成分

通常、一つの要約指数または主成分は、データセットの体系的な変動をモデル化するには不十分である。 したがって、第二の要約指数–第二の主成分(PC2)–が計算される。 第二のPCはまた、K次元可変空間における第一のPCに直交する線によって表される。, この線も平均点を通過し、Xデータの近似をできるだけ改善します。

第二の主成分(PC2)は、最初のPCと直交しながら、データの二番目に大きな変動源を反映するように向けられています。 PC2も平均点を通過します。

二つの主成分は、モデル平面を定義します

二つの主成分が導出されたとき、それらは一緒に場所、K次元変数空間への窓を定義します。, すべての観測値を低次元部分空間に投影し、その結果をプロットすることにより、調査されたデータセットの構造を視覚化することができます。 この平面上の観測値の座標値はスコアと呼ばれるため、そのような投影された構成のプロットはスコアプロットと呼ばれます。

二つのPcが平面を形成します。 この平面は多次元空間への窓であり、グラフィカルに視覚化することができます。 各観測は、それぞれのスコアを与え、この平面上に投影することができます。,

データセットのモデリング

さて、さまざまなヨーロッパ諸国で一般的に消費されている食品のデータセットを使用して、これがどのように見えるか 下の図は、最初の二つの主成分のスコアプロットを示しています。 これらのスコアをt1およびt2と呼びます。 スコアプロットは16カ国の地図です。 互いに近い国は同様の食糧消費プロファイルを持っていますが、互いに遠い国は異なっています。, 北欧諸国(フィンランド、ノルウェー、デンマーク、スウェーデン)は、このように食糧消費にいくつかの類似性を持つ国のグループを表し、右上隅に一緒に配置されて ベルギーとドイツはプロットの中心(起源)に近く、平均的な特性を持っていることを示しています。

食品消費プロファイルに関するデータセットの最初の二つのPcのPCAスコアプロット。 これは、国がお互いにどのように関係するかの地図を提供します。 第一成分は変動の32%を説明し、第二成分は19%を説明する。, それぞれの首都の地理的位置(緯度)によって色付けされます。

スコアプロットをどのように解釈するか

二つのコンポーネントを持つPCAモデル、つまりK空間の平面であり、どの変数(食品規定)が観測(国)の間で見られるパターンを担当していますか? どの変数が影響力があるのか、そして変数がどのように相関しているのかを知りたいと思います。 このような知識は、主成分負荷量(下のグラフ)によって与えられる。 これらの負荷ベクトルをp1およびp2と呼びます。,

下の図は、20個の変数間の関係を同時に表示しています。 同様の情報に寄与する変数は、一緒にグループ化され、つまり、相関されます。 クリスプパン(crips_br)と冷凍魚(Fro_Fish)は、正の相関を持つ二つの変数の例です。 一方の変数の数値が増加または減少すると、他方の変数の数値も同様に変化する傾向があります。,

変数が負の(”逆に”)相関している場合、変数はプロット原点の反対側、斜めに0posed象限に配置されます。 例えば、変数ニンニクと甘味料は逆相関しており、ニンニクが増加すると甘味料が減少し、その逆もまた同様であることを意味する。

消費された食品を比較する最初の二つの主成分(p2対p1)のPCAローディングプロット。,

二つの変数が正の相関を持つ場合、一方の変数の数値が増加または減少すると、他方の変数の数値は同じように変化する傾向があります。

さらに、原点までの距離も情報を伝えます。 変数がプロットの原点から離れているほど、変数がモデルに与える影響は強くなります。 これは、例えば、変数crisp_br(crisp_br)、冷凍魚(Fro_Fish)、冷凍野菜(Fro_Veg)、ニンニク(Garlic)が他の北欧諸国から四つの北欧諸国を分離することを意味します。, 北欧四国は、前者の三つの規定の高い値(高い消費量)と、ニンニクの消費量が低いという特徴があります。 さらに、モデルの解釈は、イタリア、ポルトガル、スペイン、そしてある程度、オーストリアのような国は、ニンニクの消費量が高く、甘味料、錫メッキスープ(Ti_soup)および錫メッキフルーツ(Ti_Fruit)の消費量が低いことを示唆している。

幾何学的には、主成分荷重はK次元可変空間におけるモデル平面の向きを表します。, 元の変数に対するPC1の方向は、角度a1、a2、およびa3のコサインによって与えられます。 これらの値は、元の変数x1、x2、およびx3がどのようにPC1に”ロード”されるかを示します。 したがって、それらは負荷と呼ばれます。

負荷係数の第二のセットは、元の変数に関連してPC2の方向を表します。 したがって、二つのPCsと三つの元の変数が与えられると、モデル平面がK空間にどのように配置されるかを指定するために六つの荷重値(角度の余弦),

主成分読み込みにより、PCAモデル平面が変数空間にどのように挿入されるかが明らかになります。 ローディングは、スコアの意味を解釈するために使用されます。

それを試してみたいですか?

無料トライアルをダウンロード

ブログの概要に戻る

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です