Impak strategi pensampelan set data pada prestasi model memerlukan contoh kod khusus
Dengan perkembangan pesat pembelajaran mesin dan pembelajaran mendalam, The kualiti dan saiz set data menjadi semakin penting untuk prestasi model. Dalam aplikasi praktikal, kami sering menghadapi masalah seperti saiz set data yang berlebihan, kategori sampel tidak seimbang dan bunyi bising. Pada masa ini, pilihan strategi persampelan yang munasabah boleh meningkatkan prestasi dan keupayaan generalisasi model. Artikel ini akan membincangkan kesan strategi pensampelan set data yang berbeza pada prestasi model melalui contoh kod tertentu.
import numpy as np def random_sampling(X, y, sample_ratio): num_samples = int(sample_ratio * X.shape[0]) indices = np.random.choice(X.shape[0], num_samples, replace=False) X_sampled = X[indices] y_sampled = y[indices] return X_sampled, y_sampled
from sklearn.model_selection import train_test_split from sklearn.utils import resample def stratified_sampling(X, y, sample_ratio): X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, test_size=1-sample_ratio) X_sampled, y_sampled = resample(X_train, y_train, n_samples=int(sample_ratio * X.shape[0])) return X_sampled, y_sampled
from sklearn.svm import OneClassSVM def margin_sampling(X, y, sample_ratio): clf = OneClassSVM(gamma='scale') clf.fit(X) y_pred = clf.predict(X) reliable_samples = X[y_pred == 1] num_samples = int(sample_ratio * X.shape[0]) indices = np.random.choice(reliable_samples.shape[0], num_samples, replace=False) X_sampled = reliable_samples[indices] y_sampled = y[indices] return X_sampled, y_sampled
Ringkasnya, strategi pensampelan set data yang berbeza mempunyai kesan yang berbeza pada prestasi model. Persampelan rawak boleh dengan mudah dan cepat mendapatkan set latihan, tetapi ia boleh menyebabkan kategori sampel tidak seimbang boleh mengekalkan keseimbangan kategori sampel dan meningkatkan keupayaan model untuk mengendalikan kategori minoriti boleh menapis sampel yang bising dan meningkatkan keteguhan; daripada jantina model. Dalam aplikasi praktikal, kita perlu memilih strategi pensampelan yang sesuai berdasarkan masalah khusus, dan memilih strategi optimum melalui eksperimen dan penilaian untuk meningkatkan prestasi dan keupayaan generalisasi model.
Atas ialah kandungan terperinci Kesan strategi pensampelan set data ke atas prestasi model. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!