Wie implementiert man einen Regressionsanalysealgorithmus mit Python?
Die Regressionsanalyse ist eine häufig verwendete statistische Methode, mit der die Beziehung zwischen Variablen untersucht und der Wert einer Variablen vorhergesagt wird. Im Bereich des maschinellen Lernens und der Datenanalyse wird häufig die Regressionsanalyse eingesetzt. Python verfügt als beliebte Programmiersprache über leistungsstarke Bibliotheken und Tools für die Analyse großer Datenmengen und maschinelles Lernen. In diesem Artikel wird erläutert, wie Sie mit Python Regressionsanalysealgorithmen implementieren, und es werden spezifische Codebeispiele bereitgestellt.
Bevor wir Python zur Implementierung der Regressionsanalyse verwenden, müssen wir einige notwendige Bibliotheken und Datensätze importieren. Hier sind einige häufig verwendete Bibliotheken und Datensätze:
import pandas as pd import numpy as np import matplotlib.pyplot as plt from sklearn import linear_model from sklearn.metrics import mean_squared_error, r2_score from sklearn.model_selection import train_test_split
Bei der Regressionsanalyse müssen wir Daten laden und untersuchen. Laden Sie zunächst die Daten mithilfe der Pandas-Bibliothek in einen DataFrame:
dataset = pd.read_csv('data.csv')
Anschließend können wir einige Pandas- und Matplotlib-Funktionen verwenden, um die grundlegenden Informationen und die Verteilung der Daten zu untersuchen:
print(dataset.head()) # 查看前几行数据 print(dataset.describe()) # 描述性统计信息 plt.scatter(dataset['x'], dataset['y']) plt.xlabel('x') plt.ylabel('y') plt.show()
Bevor Sie die Regression durchführen Für die Analyse müssen wir die Daten vorbereiten. Zuerst trennen wir die unabhängigen und abhängigen Variablen und konvertieren sie in geeignete Numpy-Arrays:
X = dataset['x'].values.reshape(-1, 1) y = dataset['y'].values
Dann teilen wir den Datensatz in Trainings- und Testsätze auf:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)
Weiter. Als nächstes verwenden wir die lineare Regressionsalgorithmus zum Erstellen eines Regressionsmodells. Wir können die LinearRegression-Klasse der scikit-learn-Bibliothek verwenden, um eine lineare Regression zu implementieren:
regressor = linear_model.LinearRegression() regressor.fit(X_train, y_train)
Nach dem Erstellen des Regressionsmodells müssen wir die Leistung des Modells bewerten. Verwenden Sie die Daten im Testsatz, um Vorhersagen zu treffen und den mittleren quadratischen Fehler und das Bestimmtheitsmaß des Modells zu berechnen:
y_pred = regressor.predict(X_test) print("Mean squared error: %.2f" % mean_squared_error(y_test, y_pred)) print("Coefficient of determination: %.2f" % r2_score(y_test, y_pred))
Schließlich können wir die Matplotlib-Bibliothek verwenden, um die Regressionslinie und das zu zeichnen Streudiagramm auf dem Testsatz, um die Anpassung des Modells visuell darzustellen:
plt.scatter(X_test, y_test) plt.plot(X_test, y_pred, color='red', linewidth=2) plt.xlabel('x') plt.ylabel('y') plt.show()
Das Obige sind die kurzen Schritte und Codebeispiele für die Verwendung von Python zur Implementierung des Regressionsanalysealgorithmus. Durch diese Schritte können wir die Daten laden, die Daten vorbereiten, das Regressionsmodell erstellen und die Leistung des Modells bewerten. Mithilfe des linearen Regressionsalgorithmus können wir den Wert einer Variablen vorhersagen und die Anpassung des Modells mithilfe der Matplotlib-Bibliothek visualisieren. Ich hoffe, dass dieser Artikel für Leser hilfreich ist, die Regressionsanalysealgorithmen erlernen.
Das obige ist der detaillierte Inhalt vonWie implementiert man einen Regressionsanalysealgorithmus mit Python?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!