Apakah teknologi hutan rawak dalam Python?
Hutan rawak ialah algoritma pembelajaran ensemble yang berkuasa yang boleh digunakan untuk masalah seperti pengelasan dan regresi. Ia terdiri daripada berbilang pokok keputusan untuk meningkatkan ketepatan dan keteguhan dalam cara membuat keputusan kolektif. Kebergantungan perpustakaan Python yang diperlukan untuk membina hutan rawak termasuk pakej hutan rawak menggunakan scikit-learn (sklearn).
Apakah Hutan Rawak?
Hutan rawak ialah model pembelajaran diselia yang meramalkan nilai pembolehubah output dengan melatih set data. Ia berfungsi dengan pembolehubah keluaran berterusan atau diskret. Hutan rawak terdiri daripada berbilang pokok keputusan. Ia secara rawak memilih pembolehubah dan titik pecah pada titik pecahan yang dibina.
Apakah kelebihan hutan rawak?
Hutan rawak mempunyai beberapa kelebihan penting yang menjadikannya salah satu teknik ramalan yang paling popular dalam sains data moden:
Bagaimana untuk melaksanakan hutan rawak menggunakan Python?
Pelaksanaan hutan rawak memerlukan pemasangan perpustakaan Python scikit-learn (sklearn). Langkah pemasangan adalah seperti berikut:
pip install scikit-learn
Selepas pemasangan, kita boleh menggunakan API yang disediakan oleh perpustakaan sklearn untuk melaksanakan hutan rawak.
Sebelum ini, anda perlu memuatkan perpustakaan yang diperlukan:
from sklearn.ensemble import RandomForestClassifier from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split
Secara umumnya, kita boleh melakukan empat langkah berikut untuk melatih model hutan rawak dan menggunakannya untuk membuat ramalan.
Dalam contoh kod ini, kami menggunakan set data Iris terbina dalam scikit-learn:
def load_data(): data = load_iris() return data.data, data.target
Dalam langkah ini, kami membina pengelas hutan rawak menggunakan kelas RandomForestClassifier. n_estimators
Parameter mentakrifkan bilangan pokok dalam hutan, di mana setiap pokok dilatih dengan sampel rawak dan pembolehubah. Bilangan pokok yang disyorkan untuk dipilih bergantung pada saiz masalah tertentu. Melebihi bilangan ini akan mengakibatkan peningkatan masa latihan, manakala terlalu sedikit pokok boleh menyebabkan model terlalu dipasang:
def create_model(): model = RandomForestClassifier(n_estimators=100, max_depth=3, random_state=0) return model
Dalam kes ini, kami memilih bilangan pokok menjadi 100 dan kedalaman berdasarkan saiz daripada set data. Kami menetapkan max_depth kepada 3 untuk mengelakkan overfitting.
Sebelum memasang dan menilai model, kita perlu membahagikan set data kepada set latihan dan set ujian. Dalam contoh ini, kami menggunakan 70% daripada data latihan untuk melatih model dan baki 30% untuk menilai model: Dalam langkah ini, kami menggunakan data berpecah untuk latihan dan ujian. Kami melatih model menggunakan kaedah
dan menilai ketepatan model menggunakan data ujian:def train_test_split_data(X, y, test_size=0.3): return train_test_split(X, y, test_size=test_size, random_state=0)
def train_model(model, X_train, y_train): model.fit(X_train, y_train) return model def evaluate_model(model, X_test, y_test): accuracy = model.score(X_test, y_test) return accuracy
fit()
Melaksanakan rawak dalam Python Langkah-langkah hutan termasuk memuatkan data, membina model, membelah data, melatih dan menilai model. Model hutan rawak boleh digunakan untuk menyelesaikan masalah klasifikasi dan regresi dengan cekap dan menyokong pemprosesan pelbagai jenis pembolehubah. Oleh kerana hutan rawak sangat fleksibel, ia boleh digunakan dalam pelbagai senario aplikasi.
Atas ialah kandungan terperinci Apakah teknik Hutan Rawak dalam Python?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!