Ensemble-Lernen ist eine Methode, um einen Konsens zu erzielen, indem die wichtigsten Merkmale mehrerer Modelle integriert werden. Durch die Kombination von Vorhersagen aus mehreren Modellen können Ensemble-Lernrahmen die Robustheit von Vorhersagen verbessern und dadurch Vorhersagefehler reduzieren. Durch die Integration der verschiedenen Vorteile mehrerer Modelle kann sich Ensemble-Lernen besser an komplexe Datenverteilungen und Unsicherheiten anpassen und die Genauigkeit und Robustheit von Vorhersagen verbessern.
Um es einfach zu verstehen: Ensemble-Lernen erfasst komplementäre Informationen aus verschiedenen Modellen.
In diesem Artikel werfen wir einen Blick darauf, in welchen Situationen Ensemble-Lernen zum Einsatz kommen würde und welche Algorithmen und Techniken gibt es für Ensemble-Lernen?
1. Das beste Modell kann nicht ausgewählt werden.
Verschiedene Modelle schneiden bei bestimmten Verteilungen im Datensatz besser ab, und das Modellensemble kann zwischen allen drei Datentypen liegen anspruchsvollere Entscheidungsgrenzen.
2. Datenüberschuss/-unzulänglichkeit
Wenn eine große Datenmenge verfügbar ist, können wir die Klassifizierungsaufgabe auf verschiedene Klassifikatoren aufteilen und diese innerhalb der Vorhersagezeit integrieren, anstatt zu versuchen, eine große Datenmenge zu trainieren ein Klassifikator. Und in Fällen, in denen der verfügbare Datensatz kleiner ist, kann eine geführte Integrationsstrategie verwendet werden.
3. Konfidenzschätzung
Der Kern des Ensemble-Frameworks basiert auf der Konfidenz verschiedener Modellvorhersagen.
4. Hohe Problemkomplexität
Ein einzelner Klassifikator ist möglicherweise nicht in der Lage, geeignete Grenzen zu generieren. Ein Ensemble mehrerer linearer Klassifikatoren kann jede polynomielle Entscheidungsgrenze erzeugen.
5. Informationsfusion
Der häufigste Grund für die Verwendung von Ensemble-Lernmodellen ist die Informationsfusion zur Verbesserung der Klassifizierungsleistung. Das heißt, Sie verwenden ein Modell, das während der Vorhersagezeit auf verschiedene Datenverteilungen trainiert wurde, die zum gleichen Satz von Kategorien gehören, um robustere Entscheidungen zu erhalten.
Der Bagging-Ensemble-Algorithmus
ist eine der frühesten vorgeschlagenen Ensemble-Methoden. Aus dem Datensatz werden Unterproben erstellt, die als „Bootstrap-Sampling“ bezeichnet werden. Einfach ausgedrückt werden durch Ersetzung zufällige Teilmengen des Datensatzes erstellt, was bedeutet, dass dieselben Datenpunkte in mehreren Teilmengen vorhanden sein können.
Diese Teilmengen werden nun als unabhängige Datensätze behandelt, an die mehrere Modelle für maschinelles Lernen angepasst werden können. Beim Testen werden die Vorhersagen aller dieser Modelle berücksichtigt, die auf verschiedenen Teilmengen derselben Daten trainiert wurden. Schließlich gibt es einen Aggregationsmechanismus, der zur Berechnung der endgültigen Vorhersage verwendet wird.
Parallele Verarbeitungsflüsse treten im Bagging-Mechanismus auf, dessen Hauptzweck darin besteht, die Varianz in Ensemblevorhersagen zu verringern. Daher weist der ausgewählte Ensemble-Klassifikator normalerweise eine hohe Varianz und eine geringe Verzerrung auf.
Daher weist der ausgewählte Ensemble-Klassifikator normalerweise eine hohe Varianz und einen geringen Bias auf.
Boosting-Integrationsalgorithmus
Im Gegensatz zum Bagging-Integrationsalgorithmus verarbeitet der Boosting-Integrationsalgorithmus Daten nicht parallel, sondern verarbeitet den Datensatz sequentiell. Der erste Klassifikator nimmt den gesamten Datensatz auf und analysiert die Vorhersagen. Fälle, die keine korrekten Vorhersagen liefern, werden einem zweiten Klassifikator zugeführt. Anschließend wird das Ensemble aller dieser vorherigen Klassifikatoren berechnet, um die endgültige Vorhersage anhand der Testdaten zu treffen.
Der Hauptzweck des Boosting-Algorithmus besteht darin, Voreingenommenheit bei der Ensemble-Entscheidungsfindung zu reduzieren. Daher muss der für das Ensemble ausgewählte Klassifikator normalerweise eine geringe Varianz und einen hohen Bias aufweisen, d. h. ein einfacheres Modell mit weniger trainierbaren Parametern.
Stapel-Ensemble-Algorithmus
Die Ausgabe dieses Algorithmusmodells wird als Eingabe eines anderen Klassifikators (Meta-Klassifikators) verwendet und die Stichprobe wird schließlich vorhergesagt. Der Zweck der Verwendung eines zweischichtigen Klassifikators besteht darin, festzustellen, ob die Trainingsdaten gelernt wurden, und dem Meta-Klassifikator zu helfen, ihn zu korrigieren oder zu verbessern, bevor er die endgültige Vorhersage trifft.
Expertenmischung
Diese Methode trainiert mehrere Klassifikatoren, und dann wird die Ausgabe mithilfe verallgemeinerter linearer Regeln integriert. Die diesen Kombinationen zugewiesenen Gewichte werden außerdem durch das „Gating Network“ bestimmt, bei dem es sich ebenfalls um ein trainierbares Modell, normalerweise ein neuronales Netzwerk, handelt.
Mehrheitsabstimmung
Mehrheitsabstimmung ist eines der frühesten und einfachsten Integrationsschemata in der Literatur. Bei dieser Methode wird eine ungerade Anzahl beitragender Klassifikatoren ausgewählt und die Vorhersagen der Klassifikatoren für jede Stichprobe berechnet. Dann werden die meisten vorhergesagten Klassen, die als Mengen betrachtet werden, aus dem Klassifikatorpool erhalten.
Diese Methode eignet sich für binäre Klassifizierungsprobleme, da nur über zwei Kandidatenklassifikatoren abgestimmt werden kann. Allerdings sind Methoden, die auf Konfidenzwerten basieren, derzeit zuverlässiger.
Max-Regel (Max-Regel)
Die Ensemble-Methode „Max-Regel“ basiert auf der von jedem Klassifikator generierten Wahrscheinlichkeitsverteilung. Diese Methode verwendet das Konzept der „Vorhersagekonfidenz“ des Klassifikators und prüft die entsprechende Konfidenzbewertung für die vom Klassifikator vorhergesagte Klasse. Betrachten Sie die Vorhersage des Klassifikators mit der höchsten Konfidenzbewertung als Vorhersage des Ensemble-Frameworks.
Wahrscheinlichkeitsdurchschnitt
Bei dieser Ensemble-Technik werden zunächst die Wahrscheinlichkeitswerte mehrerer Modelle berechnet. Anschließend werden die Ergebnisse aller Modelle aller Klassen im Datensatz gemittelt. Der Wahrscheinlichkeitswert ist das Konfidenzniveau der Vorhersage eines bestimmten Modells. Daher werden die Konfidenzwerte mehrerer Modelle zusammengefasst, um den endgültigen Wahrscheinlichkeitswert des Ensembles zu generieren. Als Vorhersage wird die Klasse mit der höchsten Wahrscheinlichkeit nach der Mittelungsoperation zugewiesen.
Gewichteter Wahrscheinlichkeitsdurchschnitt
Ähnlich wie bei der Methode der Wahrscheinlichkeitsmittelung werden die Wahrscheinlichkeits- oder Konfidenzwerte aus verschiedenen beitragenden Modellen extrahiert. Der Unterschied besteht jedoch darin, dass ein gewichteter Durchschnitt der Wahrscheinlichkeiten berechnet wird. Das Gewicht bei dieser Methode bezieht sich auf die Wichtigkeit jedes Klassifikators. Das heißt, einem Klassifikator, dessen Gesamtleistung im Datensatz besser ist als bei einem anderen Klassifikator, wird bei der Berechnung des Ensembles eine höhere Bedeutung beigemessen, wodurch das Ensemble-Framework bessere Vorhersagefähigkeiten erhält.
Das obige ist der detaillierte Inhalt vonStellen Sie die Definition, Nutzungsszenarien, Algorithmen und Techniken des Ensemble-Lernens vor. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!