Dalam bidang analisis data dan pembelajaran mesin, Analisis Komponen Utama (PCA) ialah algoritma pengurangan dimensi linear yang biasa digunakan. PCA mengurangkan dimensi data dengan mencari komponen utama data, dengan itu meningkatkan kebolehtafsiran dan kecekapan pengiraan data. Artikel ini akan menggambarkan prinsip dan aplikasi PCA melalui contoh Python.
Pertama, kita perlu mengimport perpustakaan berkaitan Python, seperti numpy, matplotlib, panda, sklearn, dsb.
import numpy as np import pandas as pd import matplotlib.pyplot as plt from sklearn.preprocessing import StandardScaler from sklearn.decomposition import PCA
Seterusnya, kami memuatkan data. Di sini kami menggunakan set data Iris, yang merupakan set data pengelasan dan pengelompokan standard, termasuk tiga jenis iris. Kami menggunakan fungsi read_csv() dalam pustaka panda untuk membaca set data ini:
data = pd.read_csv('iris.csv')
Sekarang, kami perlu menormalkan data. Oleh kerana PCA dikira berdasarkan matriks kovarians data, saiz dan susunan saiz matriks kovarians ditentukan oleh jumlah variasi dalam data. Oleh itu, kita perlu menormalkan julat semua ciri kepada saiz yang sama sebelum melakukan analisis PCA. Kita boleh menggunakan StandardScaler sklearn untuk mencapai penyeragaman.
scaler = StandardScaler() data_scaled = scaler.fit_transform(data)
Seterusnya, kita boleh menggunakan kaedah cov() dalam numpy untuk mengira matriks kovarians data, yang akan berfungsi sebagai input kepada algoritma PCA.
cov_matrix = np.cov(data_scaled.T)
Kini, kita boleh menggunakan kelas PCA untuk mencari komponen utama data. Kita boleh menetapkan bilangan komponen utama untuk dikekalkan. Biasanya, kami memilih untuk mengekalkan bilangan komponen utama yang lebih kecil daripada bilangan ciri asal. Dalam contoh ini kita akan menyimpan 2 komponen utama.
pca = PCA(n_components=2) principal_components = pca.fit_transform(data_scaled)
Kini, kita boleh menggunakan matplotlib untuk merancang keputusan PCA. Graf yang terhasil dipaparkan dalam sistem koordinat dua dimensi, di mana warna yang berbeza bagi setiap iris menunjukkan spesies di mana ia berada. Dalam grafik ini, kita boleh melihat pelbagai jenis bunga iris tersebar dalam arah yang berbeza.
plt.figure(figsize=(8,6)) plt.scatter(principal_components[:,0], principal_components[:,1], c=data['species']) plt.xlabel('Principal Component 1') plt.ylabel('Principal Component 2') plt.show()
Melalui contoh ini, kita dapat melihat prinsip kerja dan aplikasi analisis faktor prinsip. PCA ialah teknik yang sangat berguna yang boleh digunakan dalam banyak bidang seperti visualisasi data, penapisan hingar, pengekstrakan ciri dan pemampatan data. Oleh itu, PCA adalah alat yang sangat diperlukan dalam bidang analisis data dan pembelajaran mesin.
Atas ialah kandungan terperinci Contoh analisis faktor prinsip dalam Python. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!