Python での主成分分析の例
Python での主成分分析の例
主成分分析 (PCA) は、データの次元削減に一般的に使用される手法で、すべてのデータを保持したまま、高次元データの次元を低次元に削減できます。さらに多くのデータバリエーション情報が含まれる可能性があります。 Python には、PCA を実装するためのライブラリとツールが多数用意されています。この記事では、例を使用して、Python で sklearn ライブラリを使用して PCA を実装する方法を紹介します。
まず、データセットを準備する必要があります。この記事では、150 個のサンプル データを含むアヤメのデータ セットを使用します。各サンプルには 4 つの特徴量 (萼の長さと幅、花びらの長さと幅)、およびラベル (花びらの種類) が含まれています。アイリスの花)。私たちの目標は、これら 4 つの特徴の次元を削減し、最も重要な主成分を見つけることです。
まず、必要なライブラリとデータセットをインポートする必要があります。
from sklearn.datasets import load_iris from sklearn.decomposition import PCA import matplotlib.pyplot as plt iris = load_iris() X = iris.data y = iris.target
これで、PCA オブジェクトを作成して適用できるようになりました。
pca = PCA(n_components=2) X_pca = pca.fit_transform(X)
ここの PCA オブジェクトは n_components=2 を設定します。これは、処理されたデータを 2 次元平面上に表示するだけであることを意味します。元のデータ X に fit_transform を適用し、処理されたデータセット X_pca を取得します。
これで結果をプロットできます。
plt.scatter(X_pca[:, 0], X_pca[:, 1], c=y) plt.xlabel('Component 1') plt.ylabel('Component 2') plt.show()
この図では、次元削減後の 2 次元空間における Iris データ セットの分布がわかります。それぞれの点はアヤメの花のサンプルを表し、色はアヤメの花の種類を示します。
次に、主成分が何であるかを見てみましょう。
print(pca.components_)
これにより、「コンポーネント 1」と「コンポーネント 2」という 2 つのベクトルが出力されます。
[[ 0.36158968 -0.08226889 0.85657211 0.35884393]
[-0.65653988 -0.72971237 0.1757674 0.07470647]]
各要素は、元のデータ内の特徴の重みを表します。言い換えれば、主成分は、元の特徴を線形結合するために使用されるベクトルと考えることができます。結果の各ベクトルは単位ベクトルです。
各コンポーネントによって説明されるデータの分散量を確認することもできます。
print(pca.explained_variance_ratio_)
この出力には、各成分によって説明されるデータの分散の割合が表示されます。
[0.92461621 0.05301557]
これら 2 つの成分がデータの分散の合計 94% を説明していることがわかります。これは、データの特徴を非常に正確に捉えることができることを意味します。
注意すべき点の 1 つは、PCA は元のデータからすべての特徴を削除するということです。したがって、特定の機能を保持する必要がある場合は、PCA を適用する前に手動で削除する必要があります。
これは、Python の sklearn ライブラリを使用して PCA を実装する方法の例です。 PCA はあらゆる種類のデータに適用でき、高次元データから最も重要なコンポーネントを発見するのに役立ちます。この記事のコードを理解できれば、独自のデータ セットに PCA を適用することもできます。
以上がPython での主成分分析の例の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









Pandas は、さまざまな種類のデータ ファイルを簡単に読み取り、処理できる強力なデータ分析ツールです。その中でも、CSV ファイルは最も一般的でよく使用されるデータ ファイル形式の 1 つです。この記事では、Pandas を使用して CSV ファイルを読み取り、データ分析を実行する方法と、具体的なコード例を紹介します。 1. 必要なライブラリをインポートする まず、以下に示すように、Pandas ライブラリと必要になる可能性のあるその他の関連ライブラリをインポートする必要があります。 importpandasaspd 2. Pan を使用して CSV ファイルを読み取ります。

一般的なデータ分析手法: 1. 比較分析手法; 2. 構造分析手法; 3. クロス分析手法; 4. 傾向分析手法; 5. 因果分析手法; 6. 関連分析手法; 7. クラスター分析手法; 8 , 主成分分析法; 9. 散布分析法; 10. マトリックス分析法。詳細な紹介: 1. 比較分析手法: 2 つ以上のデータを比較分析して、相違点やパターンを見つける手法; 2. 構造分析手法: 全体の各部分と全体を比較分析する手法; 3. クロス分析手法、など。

Python での sqrt() 関数の使用法とコード例 1. sqrt() 関数の関数と紹介 Python プログラミングにおいて、sqrt() 関数は math モジュール内の関数であり、その機能は次の平方根を計算することです。数。平方根は、数値をそれ自体で乗算すると数値の 2 乗に等しいことを意味します。つまり、x*x=n の場合、x は n の平方根になります。プログラム内で sqrt() 関数を使用すると、平方根を計算できます。 2. Python で sqrt() 関数を使用する方法、sq

前回の「データ サイエンティストが 95% の時間使用する 11 個の基本チャート」に続き、今日はデータ サイエンティストが 95% の時間使用する 11 個の基本ディストリビューションをお届けします。これらの分布をマスターすることで、データの性質をより深く理解し、データ分析や意思決定の際により正確な推論や予測を行うことができます。 1. 正規分布 正規分布はガウス分布としても知られ、連続確率分布です。平均 (μ) を中心、標準偏差 (σ) を幅とした対称な釣鐘型の曲線を持ちます。正規分布は、統計学、確率論、工学などの多くの分野で重要な応用価値があります。

Python で画像処理と認識を行う方法 概要: 最新のテクノロジーにより、画像処理と認識が多くの分野で重要なツールになりました。 Python は、豊富な画像処理および認識ライブラリを備えた、習得と使用が簡単なプログラミング言語です。この記事では、Python を使用して画像処理と認識を行う方法と、具体的なコード例を紹介します。画像処理: 画像処理は、画質を向上させたり、画像から情報を抽出したりするために、画像にさまざまな操作や変換を実行するプロセスです。 Python の PIL ライブラリ (Pi

視覚化は、複雑なデータのパターンと関係を直感的でわかりやすい方法で伝えるための強力なツールです。これらはデータ分析において重要な役割を果たし、生データや従来の数値表現からは識別することが難しい洞察を提供します。視覚化は複雑なデータのパターンと関係を理解するために非常に重要です。データ内の情報を明らかにし、複雑なデータをより理解しやすく意味のあるものにするのに役立つ、最も重要で知っておくべき 11 のグラフを紹介します。 1. KSPlotKSPlot は分布の違いを評価するために使用されます。中心となるアイデアは、2 つの分布の累積分布関数 (CDF) 間の最大距離を測定することです。最大距離が小さいほど、同じ分布に属する可能性が高くなります。したがって、主に分布の差異を決定するための「システム」として解釈されます。

今日のインテリジェント社会では、機械学習とデータ分析は、人々が大量のデータをより深く理解し、活用できるようになる不可欠なツールです。こうした分野でもGo言語は注目を集めているプログラミング言語となっており、その高速性と効率性から多くのプログラマーに選ばれています。この記事では、機械学習やデータ分析に Go 言語を使用する方法を紹介します。 1. 機械学習のエコシステム Go 言語は、Python や R ほど豊富ではありません。しかし、より多くの人が Go 言語を使い始めるにつれて、一部の機械学習ライブラリとフレームワークが

ECharts と PHP インターフェイスを使用して統計グラフのデータ分析と予測を実装する方法。データ分析と予測はさまざまな分野で重要な役割を果たします。データの傾向とパターンを理解し、将来の意思決定の参考にすることができます。 ECharts は、PHP インターフェイスを使用してデータを動的にロードして処理できる、豊富で柔軟なグラフ コンポーネントを提供するオープン ソース データ視覚化ライブラリです。この記事では、EChartsとphpインターフェースに基づいた統計グラフデータの分析と予測の実装方法を紹介し、提供します
