Python でランダム フォレスト アルゴリズムを作成するにはどうすればよいですか?
ランダム フォレストは、分類および回帰問題によく使用される強力な機械学習手法です。このアルゴリズムは、特徴をランダムに選択し、サンプルをランダムにサンプリングし、複数のデシジョン ツリーを構築し、その結果を統合することによって予測を行います。
この記事では、Python を使用してランダム フォレスト アルゴリズムを作成する方法を紹介し、具体的なコード例を示します。
- 必要なライブラリをインポートする
最初に、numpy、pandas、sklearn などの一般的に使用される Python ライブラリをインポートする必要があります。その中で、numpy はデータの処理と計算に使用され、pandas はデータの読み取りと処理に使用され、sklearn にはランダム フォレスト アルゴリズムを実装するいくつかの関数が含まれています。
import numpy as np
import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
ログイン後にコピー
- データのロード
次に、データ セットをロードする必要があります。この例では、iris.csv という名前のデータ セットを使用します。このデータ セットには、アヤメの花のいくつかの特性と対応する分類ラベルが含まれています。
data = pd.read_csv("iris.csv")
ログイン後にコピー
- データの前処理
次に、データを前処理する必要があります。これには、特徴とラベルの分離、カテゴリ変数の数値変数への変換が含まれます。
# 将特征和标签分开
X = data.drop('species', axis=1)
y = data['species']
# 将分类变量转换成数值变量
y = pd.factorize(y)[0]
ログイン後にコピー
- トレーニング セットとテスト セットの分割
ランダム フォレストのパフォーマンスを評価するには、データ セットをトレーニング セットとテスト セットに分割する必要があります。
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
ログイン後にコピー
- ランダム フォレスト モデルの構築とトレーニング
これで、sklearn の RandomForestClassifier クラスを使用して、ランダム フォレスト モデルを構築およびトレーニングできるようになります。
rf = RandomForestClassifier(n_estimators=100, random_state=42)
rf.fit(X_train, y_train)
ログイン後にコピー
モデルのパフォーマンスの予測と評価 トレーニングされたモデルを使用して、テスト セットで予測を行い、精度を計算することでモデルのパフォーマンスを評価できます。
y_pred = rf.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)
ログイン後にコピー
上記は、Python でランダム フォレスト アルゴリズムを作成する完全なコード例です。これらのコードを通じて、ランダム フォレスト モデルを簡単に構築およびトレーニングし、予測とパフォーマンス評価を実行できます。
概要:
ランダム フォレストは、分類と回帰の問題を効果的に解決できる強力な機械学習手法です。 Python でのランダム フォレスト アルゴリズムの作成は非常に簡単で、対応するライブラリのインポート、データの読み込み、データの前処理、トレーニング セットとテスト セットの分割、モデルの構築とトレーニング、そして最後に予測とパフォーマンス評価を実行するだけです。上記のコード例は、読者がランダム フォレスト アルゴリズムの作成と適用をすぐに開始するのに役立ちます。 ###
以上がPython でランダム フォレスト アルゴリズムを記述するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。