Multiple lineare Regression ist ein statistisches Modell, das häufig in der Datenanalyse und beim maschinellen Lernen verwendet wird. Es sagt den Wert einer oder mehrerer abhängiger Variablen voraus, indem es mehrere unabhängige Variablen verwendet. In Python können wir viele verschiedene Bibliotheken und Frameworks verwenden, um mehrere lineare Regressionsmodelle zu implementieren, wie z. B. NumPy, Pandas, Scikit-Learn usw.
Im Folgenden verwenden wir die Scikit-Learn-Bibliothek, um ein multiples lineares Regressionsmodell zur Vorhersage von Immobilienpreisen zu erstellen. In diesem Beispiel verwenden wir Daten aus dem Datensatz „Hauspreise“. Der Datensatz enthält 506 Stichproben und 13 unabhängige Variablen, darunter die städtische Kriminalitätsrate, die durchschnittliche Anzahl der Zimmer in einem Haus, das Alter des Hauses usw.
Zuerst müssen wir die erforderlichen Bibliotheken und Datensätze importieren:
import numpy as np import pandas as pd from sklearn.datasets import load_boston boston = load_boston() X = pd.DataFrame(boston.data, columns=boston.feature_names) y = pd.DataFrame(boston.target, columns=['MEDV'])
Hier verwenden wir die Pandas-Bibliothek, um den Datensatz in ein DataFrame-Objekt zu laden und die unabhängigen und abhängigen Variablen in X bzw. Y zu speichern.
Als nächstes müssen wir den Datensatz in einen Trainingssatz und einen Testsatz aufteilen. Der Trainingssatz wird zur Anpassung des Modells verwendet, während der Testsatz zur Bewertung der Leistung des Modells verwendet wird.
from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)
Hier verwenden wir die Funktion train_test_split aus der Scikit-Learn-Bibliothek, um den Datensatz in Trainings- und Testsätze aufzuteilen. Wir verwenden den Parameter test_size, um die Größe des Testsatzes anzugeben, und den Parameter random_state, um den Zufallsstartwert festzulegen, um die Reproduzierbarkeit der Ergebnisse sicherzustellen.
Als nächstes können wir ein lineares Regressionsmodell verwenden, um den Datensatz anzupassen.
from sklearn.linear_model import LinearRegression regressor = LinearRegression() regressor.fit(X_train, y_train)
Hier verwenden wir die LinearRegression-Klasse in der Scikit-Learn-Bibliothek, um ein lineares Regressionsmodell zu erstellen und verwenden die Fit-Methode, um die Trainingsdaten anzupassen.
Jetzt können wir das Modell verwenden, um die Immobilienpreise im Testsatz vorherzusagen.
y_pred = regressor.predict(X_test)
Hier verwenden wir die Vorhersagemethode, um die Hauspreise im Testsatz vorherzusagen.
Abschließend können wir einige Bewertungsmetriken aus der Scikit-Learn-Bibliothek verwenden, um die Leistung des Modells zu bewerten.
from sklearn.metrics import mean_squared_error, r2_score print('Mean squared error: %.2f' % mean_squared_error(y_test, y_pred)) print('Coefficient of determination: %.2f' % r2_score(y_test, y_pred))
Hier verwenden wir die Funktion „mean_squared_error“, um den mittleren quadratischen Fehler zu berechnen, und die Funktion „r2_score“, um das Bestimmtheitsmaß zu berechnen. Diese Metriken helfen uns, die Leistung und Genauigkeit des Modells zu verstehen.
Kurz gesagt, der Entwurf mehrerer linearer Regressionsmodelle kann mit Python sehr einfach sein. Wir müssen lediglich die erforderlichen Bibliotheken und Datensätze importieren, das Modell anpassen und einige Bewertungsmetriken verwenden, um die Leistung des Modells zu bewerten. In praktischen Anwendungen müssen wir explorative Datenanalysen, Feature-Engineering und Modelloptimierungen an Daten durchführen, um bessere Vorhersageergebnisse zu erhalten.
Das obige ist der detaillierte Inhalt vonAusführliche Erklärung zur Implementierung mehrerer linearer Regressionsmodelle in Python. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!