Die 10 besten Python-Bibliotheken für den Umgang mit unausgeglichenen Daten

王林
Freigeben: 2023-09-30 19:53:03
nach vorne
1153 Leute haben es durchsucht

Datenungleichgewicht ist eine häufige Herausforderung beim maschinellen Lernen, bei dem eine Klasse deutlich zahlreicher ist als andere Klassen, was zu verzerrten Modellen und schlechter Verallgemeinerung führen kann. Es gibt verschiedene Python-Bibliotheken, die dabei helfen, unausgeglichene Daten effizient zu verarbeiten. In diesem Artikel stellen wir die zehn besten Python-Bibliotheken für den Umgang mit unausgeglichenen Daten beim maschinellen Lernen vor und stellen Codeausschnitte und Erklärungen für jede Bibliothek bereit.

Die 10 besten Python-Bibliotheken für den Umgang mit unausgeglichenen Daten

1. imbalanced-learn

imbalanced-learn ist eine Erweiterungsbibliothek von scikit-learn, die eine Vielzahl von Techniken zur Neuausrichtung von Datensätzen bereitstellen soll. Die Bibliothek bietet mehrere Optionen wie Oversampling, Undersampling und kombinierte Methoden

 from imblearn.over_sampling import RandomOverSampler  ros = RandomOverSampler() X_resampled, y_resampled = ros.fit_resample(X, y)
Nach dem Login kopieren

2, SMOTE

SMOTE generiert synthetische Stichproben, um den Datensatz auszugleichen.

from imblearn.over_sampling import SMOTE  smote = SMOTE() X_resampled, y_resampled = smote.fit_resample(X, y)
Nach dem Login kopieren

3. ADASYN

ADASYN generiert adaptiv synthetische Proben basierend auf der Dichte einiger Proben.

from imblearn.over_sampling import ADASYN  adasyn = ADASYN() X_resampled, y_resampled = adasyn.fit_resample(X, y)
Nach dem Login kopieren

4. RandomUnderSampler

RandomUnderSampler entfernt zufällig Stichproben aus der Mehrheitsklasse.

from imblearn.under_sampling import RandomUnderSampler  rus = RandomUnderSampler() X_resampled, y_resampled = rus.fit_resample(X, y)
Nach dem Login kopieren

5. Tomek Links

Tomek Links können Paare von nächsten Nachbarn verschiedener Kategorien entfernen und die Anzahl mehrerer Stichproben reduzieren

 from imblearn.under_sampling import TomekLinks  tl = TomekLinks() X_resampled, y_resampled = tl.fit_resample(X, y)
Nach dem Login kopieren

6. SMOTEENN (SMOTE + Edited Nearest Neighbors)

SMOTEENN kombiniert SMOTE und Edited Nearest Neighbors.

 from imblearn.combine import SMOTEENN  smoteenn = SMOTEENN() X_resampled, y_resampled = smoteenn.fit_resample(X, y)
Nach dem Login kopieren

7. SMOTETomek (SMOTE + Tomek Links)

SMOTEENN kombiniert SMOTE und Tomek Links für Oversampling und Undersampling.

 from imblearn.combine import SMOTETomek  smotetomek = SMOTETomek() X_resampled, y_resampled = smotetomek.fit_resample(X, y)
Nach dem Login kopieren

8. EasyEnsemble

EasyEnsemble ist eine Ensemble-Methode, mit der ausgewogene Teilmengen der meisten Klassen erstellt werden können.

 from imblearn.ensemble import EasyEnsembleClassifier  ee = EasyEnsembleClassifier() ee.fit(X, y)
Nach dem Login kopieren

9. BalancedRandomForestClassifier

BalancedRandomForestClassifier ist eine Ensemble-Methode, die zufällige Wälder mit ausgeglichenen Teilstichproben kombiniert.

 from imblearn.ensemble import BalancedRandomForestClassifier  brf = BalancedRandomForestClassifier() brf.fit(X, y)
Nach dem Login kopieren

10. RUSBoostClassifier

RUSBoostClassifier ist eine Ensemble-Methode, die zufällige Unterabtastung und Verbesserung kombiniert.

from imblearn.ensemble import RUSBoostClassifier  rusboost = RUSBoostClassifier() rusboost.fit(X, y)
Nach dem Login kopieren

Zusammenfassung

Der Umgang mit unausgeglichenen Daten ist entscheidend für die Erstellung genauer Modelle für maschinelles Lernen. Diese Python-Bibliotheken bieten verschiedene Techniken zur Lösung dieses Problems. Abhängig von Ihrem Datensatz und Ihrem Problem können Sie die am besten geeignete Methode zum effektiven Ausgleich Ihrer Daten auswählen.

Das obige ist der detaillierte Inhalt vonDie 10 besten Python-Bibliotheken für den Umgang mit unausgeglichenen Daten. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:51cto.com
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage