Mit dem Aufkommen des Big-Data-Zeitalters sind Datenanalyse und maschinelles Lernen zu beliebten Bereichen geworden. Allerdings kann es für Anfänger eine schwierige Aufgabe sein, den Datensatz zu erhalten, ihn zu analysieren und das Modell zu trainieren. Um dieses Problem zu lösen, hat die Open-Source-Community umfangreiche Datensätze bereitgestellt, und Python als beliebte Programmiersprache bietet auch verschiedene Methoden zur Verwendung dieser Datensätze.
In diesem Artikel werden Methoden und Tools für die Verwendung von Open-Source-Datensätzen in Python vorgestellt, z. B. das Laden, Durchsuchen, Bereinigen, Visualisieren und Analysieren von Daten. Wir werden öffentlich verfügbare Datensätze für praktische Demonstrationen verwenden, um den Lesern zu helfen, diese Fähigkeiten zu erlernen.
Zuerst müssen wir den Datensatz in das Python-Programm laden. Es gibt viele Open-Source-Datensätze, die aus dem Internet heruntergeladen werden können, z. B. UCI Machine Learning Repository, Kaggle usw. Diese Datensätze werden im Allgemeinen in verschiedenen Formaten wie CSV, JSON und XML gespeichert.
In Python ist Pandas eine sehr nützliche Bibliothek. Wir können Pandas verwenden, um mit ein paar Codezeilen einen Datensatz im CSV-Format zu laden:
import pandas as pd data = pd.read_csv("example.csv")
Sobald der Datensatz in Python geladen ist, ist es soweit um mit der Erkundung der Daten zu beginnen. Wir können die head()-Methode von Pandas verwenden, um die ersten Datenzeilen anzuzeigen:
print(data.head())
Wenn wir die letzten paar Zeilen im Datensatz anzeigen möchten, können wir die tail()-Methode verwenden.
Wir können auch das Attribut „Shape“ verwenden, um die Größe des Datensatzes abzurufen:
print(data.shape)
Darüber hinaus können wir die Methode „beschreiben()“ verwenden, um einfache Statistiken des Datensatzes abzurufen, z. B. Minimalwert, Maximalwert, Durchschnittswert, usw.:
print(data.describe())
Wenn wir den Datensatz durchsuchen, stellen wir möglicherweise fest, dass es Probleme wie fehlende Werte, Ausreißer oder doppelte Werte im Datensatz gibt. Bei der Datenanalyse und beim maschinellen Lernen sind diese Probleme sehr schwerwiegend, daher müssen wir sie beseitigen.
Für fehlende Werte können wir die Methode fillna() verwenden, um sie mit 0 oder dem Mittelwert zu füllen:
data.fillna(0, inplace=True)
Wenn wir doppelte Zeilen im Datensatz entfernen möchten, können wir die Methode drop_duplicates() verwenden:
data.drop_duplicates(inplace=True)
For Ausnahmenwert, wir können die Standardabweichung verwenden, um zu bestimmen, ob er abnormal ist, und ihn durch den Mittelwert ersetzen:
mean = data["col"].mean() std = data["col"].std() cut_off = std * 3 lower, upper = mean - cut_off, mean + cut_off new_data = [x if x > lower and x < upper else mean for x in data["col"]] data["col"] = new_data
Datenvisualisierung ist einer der wichtigen Schritte der Datenanalyse. In Python können wir Matplotlib verwenden und Seaborn warten darauf, dass die Bibliotheken die Datenvisualisierung durchführen.
Zum Beispiel können wir die Matplotlib-Bibliothek verwenden, um ein Liniendiagramm im Datensatz zu zeichnen:
import matplotlib.pyplot as plt plt.plot(data["col"]) plt.show()
oder die Pairplot-Methode der Seaborn-Bibliothek verwenden, um ein Verteilungsdiagramm mehrerer Variablen durchzuführen:
import seaborn as sns sns.pairplot(data)
Nach der Datenvisualisierung können wir eine tiefergehende Datenanalyse durchführen, z. B. das Erstellen von Modellen, Trainingsmodellen, Vorhersagen und mehr. Python bietet viele Bibliotheken zur Unterstützung dieser Vorgänge, wie unter anderem Scikit-learn und TensorFlow.
Zum Beispiel können wir die Scikit-learn-Bibliothek verwenden, um ein lineares Regressionsmodell zu erstellen:
from sklearn.linear_model import LinearRegression from sklearn.model_selection import train_test_split X = data[["col1", "col2"]] y = data["target_col"] X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2) model = LinearRegression() model.fit(X_train, y_train) y_pred = model.predict(X_test)
Im obigen Beispiel verwenden wir die Methode train_test_split, um den Datensatz in einen Trainingssatz und einen Testsatz zu unterteilen, und verwenden dann die Die LinearRegression-Klasse erstellt das Modell und verwendet schließlich die Vorhersagemethode, um Vorhersagen für den Testsatz zu treffen.
Fazit
In diesem Artikel wird erklärt, wie man Open-Source-Datensätze in Python für Datenanalyse und maschinelles Lernen verwendet. Wir verwenden die Pandas-Bibliothek zum Laden und Durchsuchen von Datensätzen, die Matplotlib- und Seaborn-Bibliotheken zur Datenvisualisierung und die Scikit-learn-Bibliothek zum Erstellen und Trainieren von Modellen. Diese Techniken und Tools sind nicht nur auf die in diesem Artikel erwähnten Open-Source-Datensätze anwendbar, sondern auch auf andere Arten von Datensätzen, wie z. B. Webdaten, Sensordaten usw. Mit der Weiterentwicklung der Datenanalyse und des maschinellen Lernens werden diese Technologien und Tools weiterhin aktualisiert und verbessert, um eine bessere Leistung und Benutzerfreundlichkeit zu gewährleisten.
Das obige ist der detaillierte Inhalt vonWie verwende ich Open-Source-Datensätze in Python?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!