Cara menggunakan modul scikit-learn untuk pembelajaran mesin dalam Python 2.x
Pengenalan:
Pembelajaran mesin ialah satu disiplin yang mengkaji cara membolehkan komputer belajar daripada data dan meningkatkan prestasi mereka sendiri. scikit-learn ialah perpustakaan pembelajaran mesin berasaskan Python yang menyediakan banyak algoritma dan alatan pembelajaran mesin untuk menjadikan pembelajaran mesin lebih mudah dan lebih cekap.
Artikel ini akan memperkenalkan cara menggunakan modul scikit-lear untuk pembelajaran mesin dalam Python 2.x dan menyediakan kod sampel.
1. Pasang modul scikit-learn
Pertama, kita perlu memastikan bahawa versi Python 2.x dipasang. Kemudian, anda boleh memasang modul scikit-learn melalui arahan pip:
pip install -U scikit-learn
Selepas pemasangan selesai, anda boleh mula menggunakan modul scikit-learn untuk pembelajaran mesin.
2. Memuatkan Set Data
Dalam pembelajaran mesin, kita biasanya perlu memuatkan dan memproses set data. scikit-learn menyediakan banyak set data terbina dalam yang boleh digunakan secara langsung. Berikut mengambil set data iris sebagai contoh:
from sklearn.datasets import load_iris iris = load_iris() X, y = iris.data, iris.target
Dalam kod di atas, kami menggunakan fungsi load_iris()
untuk memuatkan set data iris, dan kemudian menyimpan data input dalam set data dalam pembolehubah X
, simpan label yang sepadan dalam pembolehubah y
. load_iris()
函数加载了鸢尾花数据集,然后将数据集中的输入数据存储在变量X
中,将对应的标签存储在变量y
中。
三、划分数据集
在训练机器学习模型之前,我们需要将数据集划分为训练集和测试集。scikit-learn提供了train_test_split
函数来实现数据集的划分。
from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
上述代码中,我们将数据集划分为训练集和测试集,其中test_size=0.2
表示测试集的比例为20%,random_state=42
表示随机种子,以确保每次划分结果的一致性。
四、选择模型
在机器学习中,我们可以选择不同的模型来训练我们的数据集。在scikit-learn中,每个模型都有对应的类,我们可以通过创建模型类的实例来选择不同的模型。
以支持向量机(SVM)为例,使用SVC
类来创建一个SVM模型的实例:
from sklearn.svm import SVC model = SVC()
五、训练模型
一旦选择了模型,我们就可以使用训练数据集对模型进行训练。
model.fit(X_train, y_train)
上述代码中,我们使用fit
方法对模型进行训练,将训练数据集X_train
和对应的标签y_train
作为输入。
六、模型评估
在训练完成后,我们需要使用测试数据集来评估模型的性能。
score = model.score(X_test, y_test) print("模型准确率:", score)
上述代码中,我们使用score
方法计算模型在测试数据集上的准确率,并输出评估结果。
七、模型预测
最后,我们可以使用训练好的模型进行预测。
y_pred = model.predict(X_test) print("预测结果:", y_pred)
上述代码中,我们使用predict
Sebelum melatih model pembelajaran mesin, kita perlu membahagikan set data kepada set latihan dan set ujian. scikit-learn menyediakan fungsi train_test_split
untuk membahagikan set data.
rrreee
test_size=0.2
bermaksud bahagian set ujian ialah 20% dan random_state =42
bermaksud benih rawak untuk memastikan ketekalan keputusan setiap kali. 4 Pilih model🎜Dalam pembelajaran mesin, kami boleh memilih model yang berbeza untuk melatih set data kami. Dalam scikit-learn, setiap model mempunyai kelas yang sepadan, dan kita boleh memilih model yang berbeza dengan mencipta contoh kelas model. 🎜🎜Ambil mesin vektor sokongan (SVM) sebagai contoh, gunakan kelas SVC
untuk mencipta contoh model SVM: 🎜rrreee🎜 5. Model latihan 🎜Setelah model dipilih, kita boleh menggunakan set data latihan Latih model. 🎜rrreee🎜Dalam kod di atas, kami menggunakan kaedah fit
untuk melatih model, mengambil set data latihan X_train
dan label yang sepadan y_train
sebagai input. 🎜🎜6. Penilaian Model🎜Selepas latihan selesai, kita perlu menggunakan set data ujian untuk menilai prestasi model. 🎜rrreee🎜Dalam kod di atas, kami menggunakan kaedah skor
untuk mengira ketepatan model pada set data ujian dan mengeluarkan keputusan penilaian. 🎜🎜7 Ramalan model🎜Akhir sekali, kita boleh menggunakan model terlatih untuk membuat ramalan. 🎜rrreee🎜Dalam kod di atas, kami menggunakan kaedah Atas ialah kandungan terperinci Cara menggunakan modul scikit-learn untuk pembelajaran mesin dalam Python 2.x. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!