10 perpustakaan Python teratas untuk mengendalikan data tidak seimbang-AI-php.cn

10 perpustakaan Python teratas untuk mengendalikan data tidak seimbang

王林

Lepaskan： 2023-09-30 19:53:03

ke hadapan

1325 orang telah melayarinya

Ketidakseimbangan data ialah cabaran biasa dalam pembelajaran mesin, di mana satu kelas dengan ketara mengatasi kelas lain, yang boleh membawa kepada model berat sebelah dan generalisasi yang lemah. Terdapat pelbagai perpustakaan Python untuk membantu mengendalikan data yang tidak seimbang dengan cekap. Dalam artikel ini, kami akan memperkenalkan sepuluh perpustakaan Python terbaik untuk mengendalikan data tidak seimbang dalam pembelajaran mesin dan menyediakan coretan dan penjelasan kod untuk setiap pustaka.

10 perpustakaan Python teratas untuk mengendalikan data tidak seimbang

1 tidak seimbang-belajar

imbalanced-lear ialah perpustakaan lanjutan scikit-belajar, direka untuk menyediakan pelbagai teknik pengimbangan semula Set Data. Pustaka menyediakan berbilang pilihan seperti pensampelan berlebihan, pensampelan kurang dan kaedah gabungan

 from imblearn.over_sampling import RandomOverSampler  ros = RandomOverSampler() X_resampled, y_resampled = ros.fit_resample(X, y)

Salin selepas log masuk

2, SMOTE

SMOTE menjana sampel sintetik untuk mengimbangi set data.

from imblearn.over_sampling import SMOTE  smote = SMOTE() X_resampled, y_resampled = smote.fit_resample(X, y)

Salin selepas log masuk

3, ADASYN

ADASYN secara adaptif menjana sampel sintetik berdasarkan kepadatan beberapa sampel.

from imblearn.over_sampling import ADASYN  adasyn = ADASYN() X_resampled, y_resampled = adasyn.fit_resample(X, y)

Salin selepas log masuk

4, RandomUnderSampler

RandomUnderSampler secara rawak mengeluarkan sampel daripada kelas majoriti.

from imblearn.under_sampling import RandomUnderSampler  rus = RandomUnderSampler() X_resampled, y_resampled = rus.fit_resample(X, y)

Salin selepas log masuk

5, Tomek Links

Tomek Links boleh mengalih keluar pasangan jiran terdekat dari kelas yang berbeza, mengurangkan bilangan berbilang sampel

 from imblearn.under_sampling import TomekLinks  tl = TomekLinks() X_resampled, y_resampled = tl.fit_resample(X, y)

Salin selepas log masuk

6, SMOTEENN (SMOTE +Edited Nearest Jiran)

SMOTEENN menggabungkan SMOTE dan Diedit Jiran Terdekat.

 from imblearn.combine import SMOTEENN  smoteenn = SMOTEENN() X_resampled, y_resampled = smoteenn.fit_resample(X, y)

Salin selepas log masuk

7, SMOTETomek (SMOTE + Tomek Links)

SMOTEENN menggabungkan SMOTE dan Tomek Links untuk oversampling dan undersampling.

 from imblearn.combine import SMOTETomek  smotetomek = SMOTETomek() X_resampled, y_resampled = smotetomek.fit_resample(X, y)

Salin selepas log masuk

8,EasyEnsemble

EasyEnsemble ialah kaedah ensemble yang boleh mencipta subset seimbang bagi kelas majoriti.

 from imblearn.ensemble import EasyEnsembleClassifier  ee = EasyEnsembleClassifier() ee.fit(X, y)

Salin selepas log masuk

9, BalancedRandomForestClassifier

BalancedRandomForestClassifier ialah kaedah ensemble yang menggabungkan hutan rawak dengan subsampel seimbang.

 from imblearn.ensemble import BalancedRandomForestClassifier  brf = BalancedRandomForestClassifier() brf.fit(X, y)

Salin selepas log masuk

10, RUSBoostClassifier

RUSBoostClassifier ialah kaedah ensemble yang menggabungkan pensampelan terkurang rawak dan peningkatan.

from imblearn.ensemble import RUSBoostClassifier  rusboost = RUSBoostClassifier() rusboost.fit(X, y)

Salin selepas log masuk

Ringkasan

Mengendalikan data yang tidak seimbang adalah penting untuk membina model pembelajaran mesin yang tepat. Perpustakaan Python ini menyediakan pelbagai teknik untuk menangani masalah ini. Bergantung pada set data dan masalah anda, anda boleh memilih kaedah yang paling sesuai untuk mengimbangi data anda dengan berkesan.

Atas ialah kandungan terperinci 10 perpustakaan Python teratas untuk mengendalikan data tidak seimbang. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!