Python人工知能アルゴリズムのランダムフォレストプロセスとは何ですか?-Python チュートリアル-php.cn

Python人工知能アルゴリズムのランダムフォレストプロセスとは何ですか?

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

リリース： 2023-05-14 14:43:13

転載

1843 人が閲覧しました

Random Forest

(Random Forest) は、決定木 (前述) に基づくアンサンブル学習アルゴリズムで、分類問題と回帰問題の両方を処理できます。

ランダムフォレストの基本的な考え方は、サンプルと特徴をランダムに選択して複数の決定木を生成し、多数決 (分類問題) または平均値の計算 (回帰問題) を行うことによって最終結果を取得することです。具体的には、ランダムフォレストのトレーニングプロセスは次のステップに分けることができます。

まず、元のデータセットから一定数のサンプルをランダムに選択して、新しいトレーニングセットを形成します
# すべての特徴から特定の数の特徴をノードの候補特徴としてランダムに選択します
## 上記のトレーニングセットと候補特徴を使用してデシジョンツリーを生成します
手順 1 ～ 3 を複数回繰り返して、複数のデシジョンツリーを生成します。
分類問題の場合、各デシジョンツリー内の各リーフはすべてのノードを表します。カテゴリ、および最終結果は多数決です。回帰問題の場合、最終結果はすべてのデシジョンツリー出力の平均です

from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import pandas as pd
# 读取数据
data = pd.read_csv(&#39;data.csv&#39;)
# 划分训练集和测试集
train, test = train_test_split(data, test_size=0.3)
# 提取训练集特征和标签
train_x = train.drop(columns=[&#39;label&#39;])
train_y = train[&#39;label&#39;]
# 构建随机森林模型
rf = RandomForestClassifier(n_estimators=100, max_depth=5, random_state=0)
# 拟合模型
rf.fit(train_x, train_y)
# 提取测试集特征和标签
test_x = test.drop(columns=[&#39;label&#39;])
test_y = test[&#39;label&#39;]
# 预测并计算准确率
pred_y = rf.predict(test_x)
accuracy = accuracy_score(test_y, pred_y)
print("Accuracy:", accuracy)

ログイン後にコピー

コードを実装するときは、最初にインポートする必要があります。必要なライブラリ。次に、データを読み込み、トレーニングセットとテストセットに分割します。その後、トレーニングセットの特徴とラベルが抽出され、これらのデータに基づいてランダムフォレストモデルが構築されます。モデルをフィッティングした後、テストセットの特徴を抽出し、そのモデルを使用して予測し、予測精度を計算します。

利点と欠点のまとめ

決定木に基づくアンサンブル学習アルゴリズムとして、次の利点があります。