Bagaimana untuk melaksanakan algoritma analisis regresi menggunakan Python?
Analisis regresi ialah kaedah statistik yang biasa digunakan untuk mengkaji hubungan antara pembolehubah dan meramalkan nilai pembolehubah. Dalam bidang pembelajaran mesin dan analisis data, analisis regresi digunakan secara meluas. Python, sebagai bahasa pengaturcaraan yang popular, mempunyai perpustakaan dan alatan yang berkuasa dalam analisis data besar dan pembelajaran mesin. Artikel ini akan memperkenalkan cara menggunakan Python untuk melaksanakan algoritma analisis regresi dan memberikan contoh kod khusus.
Sebelum menggunakan Python untuk melaksanakan analisis regresi, kami perlu mengimport beberapa pustaka dan set data yang diperlukan. Berikut ialah beberapa pustaka dan set data yang biasa digunakan:
import pandas as pd import numpy as np import matplotlib.pyplot as plt from sklearn import linear_model from sklearn.metrics import mean_squared_error, r2_score from sklearn.model_selection import train_test_split
Dalam analisis regresi, kita perlu memuatkan dan meneroka data. Mula-mula, muatkan data ke dalam DataFrame menggunakan perpustakaan panda:
dataset = pd.read_csv('data.csv')
Kemudian, kita boleh menggunakan beberapa fungsi panda dan matplotlib untuk meneroka maklumat asas dan pengedaran data:
print(dataset.head()) # 查看前几行数据 print(dataset.describe()) # 描述性统计信息 plt.scatter(dataset['x'], dataset['y']) plt.xlabel('x') plt.ylabel('y') plt.show()
Sebelum melakukan regression analisis, kita perlu menyediakan data. Mula-mula, kami memisahkan pembolehubah bebas dan bersandar dan menukarnya kepada tatasusunan numpy yang sesuai:
X = dataset['x'].values.reshape(-1, 1) y = dataset['y'].values
Kemudian, kami bahagikan set data kepada set latihan dan ujian:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)
Teruskan Seterusnya, kami menggunakan linear algoritma regresi untuk membina model regresi. Kita boleh melaksanakan regresi linear menggunakan kelas LinearRegression perpustakaan scikit-learn:
regressor = linear_model.LinearRegression() regressor.fit(X_train, y_train)
Selepas membina model regresi, kita perlu menilai prestasi model. Buat ramalan menggunakan data pada set ujian dan kira ralat min kuasa dua dan pekali penentuan model:
y_pred = regressor.predict(X_test) print("Mean squared error: %.2f" % mean_squared_error(y_test, y_pred)) print("Coefficient of determination: %.2f" % r2_score(y_test, y_pred))
Akhir sekali, kita boleh menggunakan perpustakaan matplotlib untuk melukis garis regresi dan serakan plot pada set ujian untuk menggambarkan Tunjukkan pemasangan model:
plt.scatter(X_test, y_test) plt.plot(X_test, y_pred, color='red', linewidth=2) plt.xlabel('x') plt.ylabel('y') plt.show()
Di atas adalah langkah ringkas dan contoh kod menggunakan Python untuk melaksanakan algoritma analisis regresi. Melalui langkah ini, kita boleh memuatkan data, menyediakan data, membina model regresi dan menilai prestasi model. Menggunakan algoritma regresi linear, kita boleh meramalkan nilai pembolehubah dan menggambarkan kesesuaian model menggunakan perpustakaan matplotlib. Saya harap artikel ini akan membantu pembaca yang sedang mempelajari algoritma analisis regresi.
Atas ialah kandungan terperinci Bagaimana untuk melaksanakan algoritma analisis regresi menggunakan Python?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!