Python telah menjadi salah satu alat penting dalam sains data dan analisis data besar. Perpustakaan dan modulnya yang berkuasa menjadikannya bahasa pilihan dalam bidang seperti pembelajaran mesin, perlombongan data dan visualisasi data. Dalam Python, terdapat beberapa teknik khusus analisis yang boleh membantu memproses data dan membina model. Berikut adalah beberapa teknik analisis berkaitan yang biasa digunakan.
Plot serakan ialah alat yang sering digunakan oleh saintis data, yang boleh memaparkan korelasi antara dua pembolehubah secara visual. Dalam Python, anda boleh menggunakan fungsi scatter() dalam pustaka matplotlib untuk melukis plot scatter. Contohnya:
import matplotlib.pyplot as plt x = [1, 2, 3, 4, 5] y = [2, 3, 4, 5, 6] plt.scatter(x, y) plt.show()
Ini akan memplot plot serakan mudah antara set nilai x dan y yang jelas menggambarkan hubungan antara dua pembolehubah.
Regression linear ialah kaedah membina model data yang mempertimbangkan hubungan linear antara dua pembolehubah dan menggunakan kaedah kuasa dua terkecil untuk dianggarkan ke dalam garis lurus . Dalam Python, regresi linear boleh dilakukan dengan mudah menggunakan perpustakaan scikit-learn. Contohnya:
from sklearn.linear_model import LinearRegression x = [[1], [2], [3], [4], [5]] y = [2, 3, 4, 5, 6] model = LinearRegression() model.fit(x, y) print(model.coef_) # 输出拟合直线的斜率
Ini akan mengeluarkan cerun garisan yang dipasang (juga dikenali sebagai pekali regresi) sebanyak 2.0, menunjukkan bahawa y meningkat apabila x meningkat.
Pekali korelasi Pearson ialah kaedah untuk mengukur hubungan linear antara dua pembolehubah, dengan nilai antara -1 hingga 1, -1 Mewakili korelasi bertentangan tepat, 0 menunjukkan tiada korelasi, dan 1 menunjukkan korelasi positif yang sempurna. Dalam Python, pekali korelasi boleh dikira menggunakan fungsi corrcoef() dalam perpustakaan numpy. Contohnya:
import numpy as np x = [1, 2, 3, 4, 5] y = [2, 3, 4, 5, 6] corr = np.corrcoef(x, y) print(corr)
Ini akan mengeluarkan matriks pekali korelasi antara dua pembolehubah, dan kedudukan (0,1) dan (1,0) matriks akan menjadi pekali korelasi Pearson.
Regression linear berganda ialah kaedah regresi linear yang mempertimbangkan pembolehubah bebas berbilang. Dalam Python, regresi linear berbilang boleh dilakukan dengan mudah menggunakan perpustakaan scikit-learn. Contohnya:
from sklearn.linear_model import LinearRegression x = [[1, 2], [2, 3], [3, 4], [4, 5], [5, 6]] y = [3, 4, 5, 6, 7] model = LinearRegression() model.fit(x, y) print(model.coef_) # 输出拟合直线的斜率
Ini akan mengeluarkan cerun garisan yang dipasang, menunjukkan bahawa y bertambah apabila dua pembolehubah bebas x1 dan x2 bertambah.
Pekali korelasi separa ialah hubungan linear antara dua pembolehubah selepas mempertimbangkan pengaruh pembolehubah lain. Ia boleh digunakan untuk mengawal kesan kovariat. Dalam Python, anda boleh menggunakan modul statistik dalam perpustakaan scipy untuk mengira pekali korelasi separa. Contohnya:
from scipy import stats x1 = [1, 2, 3, 4, 5] x2 = [2, 4, 6, 8, 10] y = [5, 6, 7, 8, 9] r, p = stats.pearsonr(x1, x2) pr = stats.partial_corr(y, x1, x2) print(r) # 输出x1和x2之间的相关系数 print(pr) # 输出y与x1之间的偏相关系数
Dalam contoh ini, pekali korelasi separa akan mengawal kesan x2 pada y dan x1.
Ringkasan
Dalam Python, terdapat banyak alatan untuk membantu menangani masalah analisis yang berkaitan. Plot taburan, regresi linear, pekali korelasi, regresi linear berganda dan pekali korelasi separa adalah beberapa alat yang biasa digunakan disenaraikan di sini. Menguasai teknik ini membolehkan saintis data memahami data dengan lebih baik dan menggunakan model yang sesuai untuk menyelesaikan masalah.
Atas ialah kandungan terperinci Kemahiran analisis berkaitan dalam Python. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!