Python でのクラスター分析の例-Python チュートリアル-php.cn

Python でのクラスター分析の例

王林

リリース： 2023-06-10 12:30:07

オリジナル

3255 人が閲覧しました

クラスター分析は、データセットをさまざまなグループまたはカテゴリに分割できる一般的なデータ分析方法です。 Python はさまざまなクラスタリングアルゴリズムを提供しており、さまざまなニーズに応じて分析用にさまざまなアルゴリズムを選択できます。この記事では、Python で一般的に使用されるクラスタリングアルゴリズムをいくつか紹介し、アプリケーション例を示します。

1. K-Means アルゴリズム

K-Means アルゴリズムは、ユークリッド距離に基づいてデータをグループ化する、一般的に使用されるクラスタリングアルゴリズムです。このアルゴリズムは、データセットを k 個のクラスターに分割します。各クラスターの中心点はクラスターのすべてのメンバーの平均です。アルゴリズムの具体的な手順は次のとおりです。

最初のクラスター中心として k 点をランダムに選択します。
すべてのデータポイントとクラスター中心間の距離を計算し、各データポイントを最も近いクラスターに分類します。
新しい分類結果に基づいて、各クラスターの中心点を再計算します。
クラスターが変化しなくなるか、指定された反復回数に達するまで、ステップ 2 と 3 を繰り返します。

以下は、クラスター分析に K-Means アルゴリズムを使用する Python の例です:

import numpy as np
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt

# 生成随机数据
X, y = make_blobs(n_samples=300, centers=4, random_state=42)

# 运行 K-Means 算法
kmeans = KMeans(n_clusters=4, random_state=42)
y_pred = kmeans.fit_predict(X)

# 绘制聚类结果
plt.scatter(X[:, 0], X[:, 1], c=y_pred)
plt.title("K-Means Clustering")
plt.show()

ログイン後にコピー

上記のコードでは、make_blobs 関数を使用して 300 個のサンプルを含むデータセットを生成します。ポイント。合計 4 つのクラスターを含みます。次に、KMeans 関数を使用してクラスタリングを実行し、クラスターの数を 4 に指定し、fit_predict メソッドを通じて各データポイントの分類結果を取得します。最後に、Matplotlib を使用してクラスタリング結果をプロットします。

2. 階層的クラスタリングアルゴリズム

階層的クラスタリングアルゴリズムは、データの類似性に基づいてデータを徐々に大きなクラスターにマージするボトムアップクラスタリングアルゴリズムです。アルゴリズムの具体的な手順は次のとおりです。

各データポイントを個別のクラスターとして扱います。
2 つの最も近いクラスター間の距離を計算します。
最も近い 2 つのクラスターを新しいクラスターにマージします。
すべてのクラスターが 1 つのクラスターにマージされるか、指定されたクラスター数に達するまで、手順 2 と 3 を繰り返します。

以下は、階層クラスタリングアルゴリズムを使用したクラスター分析の Python の例です。

from sklearn.cluster import AgglomerativeClustering
from sklearn.datasets import make_moons
import matplotlib.pyplot as plt

# 生成随机数据
X, y = make_moons(n_samples=200, noise=0.05, random_state=42)

# 运行层次聚类算法
agglomerative = AgglomerativeClustering(n_clusters=2)
y_pred = agglomerative.fit_predict(X)

# 绘制聚类结果
plt.scatter(X[:, 0], X[:, 1], c=y_pred)
plt.title("Agglomerative Clustering")
plt.show()

ログイン後にコピー

上記のコードでは、make_moons 関数を使用して 200 個のサンプルポイントを含むデータセットを生成します。、クラスタリングには AgglomerativeClustering 関数を使用し、クラスタ数を 2 に指定します。最後に、Matplotlib を使用してクラスタリング結果をプロットします。

3. DBSCAN アルゴリズム

DBSCAN アルゴリズムは、データセットの密度に基づいてデータポイントを異なるクラスターに分割できる密度ベースのクラスタリングアルゴリズムです。アルゴリズムの具体的な手順は次のとおりです。

未訪問のデータポイントをコアポイントとしてランダムに選択します。
コアポイントからの距離が指定された半径を超えないすべてのポイントを、コアポイントを中心とする密度到達可能領域として検索します。
ポイントが別のコアポイントの密度到達可能領域内にある場合は、そのポイントとコアポイントをクラスターにマージします。
新しいコアポイントがなくなるまでステップ 1 ～ 3 を繰り返します。

以下は、クラスター分析に DBSCAN アルゴリズムを使用する Python の例です:

from sklearn.cluster import DBSCAN
from sklearn.datasets import make_moons
import matplotlib.pyplot as plt

# 生成随机数据
X, y = make_moons(n_samples=200, noise=0.05, random_state=42)

# 运行 DBSCAN 算法
dbscan = DBSCAN(eps=0.2, min_samples=5)
y_pred = dbscan.fit_predict(X)

# 绘制聚类结果
plt.scatter(X[:, 0], X[:, 1], c=y_pred)
plt.title("DBSCAN Clustering")
plt.show()

ログイン後にコピー

上記のコードでは、make_moons 関数を使用して 200 個のサンプルポイントを含むデータセットを生成します。 DBSCAN 関数を使用してクラスタリングを実行し、半径のしきい値とサンプルの最小数を指定しました。最後に、Matplotlib を使用してクラスタリング結果をプロットします。

概要

この記事では、Python で一般的に使用される 3 つのクラスタリングアルゴリズムを紹介し、対応するサンプルアプリケーションを示します。クラスタリングアルゴリズムは、データ内の隠れたパターンや関係を発見するのに役立つ非常に便利なデータ分析方法です。実際のアプリケーションでは、データの特性とニーズに基づいて、分析用にさまざまなアルゴリズムを選択できます。

以上がPython でのクラスター分析の例の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。