Heim > Backend-Entwicklung > Python-Tutorial > Python-Beispiele für Prinzipien und praktische Anwendungen von Random-Forest-Algorithmen (mit vollständigem Code)

Python-Beispiele für Prinzipien und praktische Anwendungen von Random-Forest-Algorithmen (mit vollständigem Code)

王林
Freigeben: 2024-01-23 18:09:06
nach vorne
1157 Leute haben es durchsucht

Der Random Forest-Algorithmus ist eine Ensemble-Technik, die Regressions- und Klassifizierungsaufgaben mithilfe mehrerer Entscheidungsbäume und einer Technik namens Bootstrap und Aggregation durchführen kann. Die Grundidee dahinter besteht darin, mehrere Entscheidungsbäume zu kombinieren, um die endgültige Ausgabe zu bestimmen, anstatt sich auf einen einzigen Entscheidungsbaum zu verlassen.

Random Forest im maschinellen Lernen

Random Forest produziert eine große Anzahl von Klassifizierungsbäumen. Platzieren Sie den Eingabevektor unter jedem Baum in der Gesamtstruktur, um neue Objekte basierend auf dem Eingabevektor zu klassifizieren. Jedem Baum wird eine Klasse zugewiesen, die wir „Abstimmung“ nennen können, und letztendlich wird die Klasse mit der höchsten Anzahl an Stimmen ausgewählt.

Die folgenden Schritte helfen uns zu verstehen, wie der Random-Forest-Algorithmus funktioniert.

Schritt 1: Wählen Sie zunächst eine Zufallsstichprobe aus dem Datensatz aus.

Schritt 2: Für jede Stichprobe erstellt der Algorithmus einen Entscheidungsbaum. Anschließend werden die Vorhersageergebnisse für jeden Entscheidungsbaum erhalten.

Schritt 3: Über jedes erwartete Ergebnis in diesem Schritt wird abgestimmt.

Schritt 4: Wählen Sie abschließend das Vorhersageergebnis mit den meisten Stimmen als endgültiges Vorhersageergebnis aus.

Die Random-Forest-Methode hat die folgenden Vorteile:

  • Durch Mittelung oder Integration der Ausgaben verschiedener Entscheidungsbäume wird das Problem der Überanpassung gelöst.
  • Zufällige Wälder schneiden für eine Vielzahl von Datenelementen besser ab als einzelne Entscheidungsbäume.
  • Der Random-Forest-Algorithmus behält eine hohe Genauigkeit bei, auch wenn große Datenmengen fehlen.

Funktionen von Random Forest

Das Folgende sind die Hauptmerkmale des Random Forest-Algorithmus:

  1. ist der derzeit genaueste Algorithmus.
  2. Geeignet für große Datenbanken.
  3. Kann Zehntausende von Eingabevariablen verarbeiten, ohne eine davon zu löschen.
  4. Wenn der Wald wächst, generiert er eine interne unvoreingenommene Schätzung des Generalisierungsfehlers.
  5. Behält seine Genauigkeit auch bei massivem Datenverlust.
  6. Es umfasst Methoden zum Ausgleich der Ungenauigkeiten ungleichmäßiger Datensätze in Quasi-Populationen.
  7. Der erstellte Wald kann gespeichert und in Zukunft für andere Daten verwendet werden.
  8. Erstellen Sie Prototypen, um Beziehungen zwischen Variablen und Kategorien darzustellen.
  9. Es berechnet den Abstand zwischen Paaren von Beispielen, was für die Clusterbildung, die Erkennung von Ausreißern oder die Bereitstellung einer ansprechenden Ansicht der Daten (maßstabsgetreu) nützlich ist.
  10. Unbeschriftete Daten können verwendet werden, um mithilfe der oben genannten Funktionen unbeaufsichtigtes Clustering, Datenvisualisierung und Ausreißeridentifizierung zu erstellen.

Random Forest verfügt über mehrere Entscheidungsbäume als grundlegendes Lernmodell. Wir führen zufällige Zeilenstichproben und Merkmalsstichproben aus dem Datensatz durch, um für jedes Modell einen Stichprobendatensatz zu erstellen. Dieser Teil wird Bootstrap genannt.

So verwenden Sie die Random-Forest-Regressionstechnik

  1. Entwerfen Sie eine bestimmte Frage oder Daten und ermitteln Sie die Quelle, um die erforderlichen Daten zu ermitteln.
  2. Stellen Sie sicher, dass die Daten in einem zugänglichen Format vorliegen, andernfalls konvertieren Sie sie in das erforderliche Format.
  3. Geben Sie alle offensichtlichen Anomalien und fehlenden Datenpunkte an, die möglicherweise erforderlich sind, um die erforderlichen Daten zu erhalten.
  4. Erstellen Sie Modelle für maschinelles Lernen.
  5. Legen Sie das Basismodell fest, das Sie implementieren möchten.
  6. Trainingsdaten-Modell für maschinelles Lernen.
  7. Verwenden Sie Testdaten, um Einblicke in Ihr Modell zu erhalten.
  8. Vergleichen Sie jetzt die Leistungsmetriken von Testdaten und Modellvorhersagedaten.
  9. Wenn es nicht zufriedenstellend ist, können Sie versuchen, das Modell entsprechend zu verbessern oder andere Datenmodellierungstechniken zu verwenden.
  10. In dieser Phase werden die gewonnenen Daten interpretiert und entsprechend gemeldet.

Python-Implementierung des Random-Forest-Algorithmus-Prozesses

Schritt 1: Importieren Sie die erforderlichen Bibliotheken.

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
Nach dem Login kopieren

Schritt 2: Importieren und drucken Sie den Datensatz

ata=pd.read_csv('Salaries.csv')
print(data)
Nach dem Login kopieren

Schritt 3: Wählen Sie alle Zeilen und Spalte 1 aus dem Datensatz bis x aus, wählen Sie alle Zeilen und Spalte 2 als y aus

x=df.iloc[: ,:-1] #:: bedeutet, dass alle Zeilen ausgewählt werden. „:-1“ bedeutet, dass die letzte Spalte ignoriert wird.

y=df.iloc[:,-1:]#:: bedeutet, dass alle Zeilen ausgewählt werden. „- 1:“ bedeutet, dass alle Spalten außer der letzten Spalte ignoriert werden

#Die Funktion „iloc()“ ermöglicht es uns, bestimmte Zellen des Datensatzes auszuwählen, das heißt, sie hilft uns, die spezifischen Zellen des Datensatzes aus dem Datenrahmen auszuwählen oder Datensatz Wählt aus einer Menge von Werten den Wert aus, der zu einer bestimmten Zeile oder Spalte gehört.

Schritt 4: Passen Sie einen zufälligen Waldregressor an den Datensatz an

from sklearn.ensemble import RandomForestRegressor
regressor=RandomForestRegressor(n_estimators=100,random_state=0)
regressor.fit(x,y)
Nach dem Login kopieren

Schritt 5: Neue Ergebnisse vorhersagen

Y_pred=regressor.predict(np.array([6.5]).reshape(1,1))
Nach dem Login kopieren

Schritt 6: Visualisieren Sie die Ergebnisse

随机森林算法原理 随机森林python实例流程(附完整代码)

X_grid=np.arrange(min(x),max(x),0.01)
X_grid=X_grid.reshape((len(X_grid),1))
plt.scatter(x,y,color='blue')
plt.plot(X_grid,regressor.predict(X_grid),
color='green')
plt.title('Random Forest Regression')
plt.xlabel('Position level')
plt.ylabel('Salary')
plt.show()
Nach dem Login kopieren

Das obige ist der detaillierte Inhalt vonPython-Beispiele für Prinzipien und praktische Anwendungen von Random-Forest-Algorithmen (mit vollständigem Code). Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:163.com
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage