Sobald Daten gesammelt und gespeichert wurden, müssen sie analysiert werden, um ein aussagekräftiges Verständnis davon abzuleiten. Aus diesem Grund kommt die explorative Datenanalyse (EDA) ins Spiel. Wie der Name schon sagt, 'erkunden' wir die Daten, d. h. wir verschaffen uns einen allgemeinen Überblick darüber.
Die erfassten Daten können entweder Text, Videos oder Bilder sein und werden in der Regel unstrukturiert gespeichert. Selten werden Sie Daten finden, die zu 100 % sauber sind, also keine Anomalien aufweisen. Darüber hinaus können Daten in verschiedenen Formaten wie Excel, CSV (durch Kommas getrennte Werte), Json, Parquet usw.
vorliegenIn der Welt der Daten kann EDA auch als Datenmanipulation oder Datenbereinigung bezeichnet werden. Praktiker in der Branche betonen, wie wichtig es ist, Daten zu bereinigen, um „Junk“ zu entfernen, da dies negative Auswirkungen auf die Ergebnisse und Prognosen haben kann. Strukturierte Daten, normalerweise im Tabellenformat, können mit verschiedenen Techniken und Tools (wie Excel, Power BI, SQL) analysiert werden, aber wir konzentrieren uns für diese Veranschaulichung auf Python.
EDA mit Python
Die Programmiersprache Python ist aufgrund ihrer Vielseitigkeit eines der am weitesten verbreiteten Tools in EDA und ermöglicht den Einsatz in verschiedenen Branchen, sei es im Finanzwesen, im Bildungswesen, im Gesundheitswesen, im Bergbau oder im Gastgewerbe.
Eingebaute Bibliotheken, nämlich Pandas und NumPy, sind in dieser Hinsicht äußerst effektiv und funktionieren auf allen Ebenen (ob mit Anaconda/Jupyter Notebook, Google Collab oder einer IDE wie Visual Studio)
Im Folgenden sind die allgemeinen Schritte und Codezeilen aufgeführt, die bei der Durchführung von EDA ausgeführt werden können:
Zuerst importieren Sie die für die Manipulation/Analyse erforderlichen Python-Bibliotheken:
Pandas als PD importieren
numpy als np importieren
Zweitens laden Sie den Datensatz
df = pd.read_excel('Dateipfad')
Hinweis: df ist die Standardfunktion zum Konvertieren von Tabellendaten in einen Datenrahmen.
Nach dem Laden können Sie eine Vorschau der Daten mit dem folgenden Code anzeigen:
df.head()
Hier werden die ersten 5 Zeilen des Datensatzes angezeigt
Alternativ können Sie einfach df ausführen, wodurch einige ausgewählte Zeilen (sowohl oben als auch unten) des gesamten Datensatzes sowie alle darin enthaltenen Spalten angezeigt werden.
Drittens verstehen Sie alle Datentypen mit:
df.info()
Hinweis: Zu den Datentypen gehören Ganzzahlen (ganze Zahlen), Gleitkommazahlen (Dezimalzahlen) oder Objekte (qualitative Daten/beschreibende Wörter).
In diesem Schritt ist es ratsam, eine zusammenfassende Statistik der Daten zu erhalten, indem Sie Folgendes verwenden:
df.describe()
Dadurch erhalten Sie Statistiken wie Mittelwert, Modus, Standardabweichung, Maximal-/Minimalwerte und die Quartile.
Viertens ermitteln Sie mithilfe von:
, ob im Datensatz Nullwerte vorhanden sind
df.isnull()
Daran anschließend kann eine Prüfung auf Duplikate (sich wiederholende Einträge) erfolgen
df.duplicated()
Weitere wichtige Aspekte der EDA sind die Überprüfung der Beziehung der verschiedenen Variablen in einem Datensatz zueinander (Korrelation) und ihrer Verteilung.
Die Korrelation kann positiv oder negativ sein und reicht von -1 bis 1. Der Code lautet:
df.corr()
Hinweis: Eine Korrelationszahl nahe 1 weist auf eine starke positive Korrelation hin, während eine Zahl nahe -1 auf eine hinweist starke negative Korrelation.
Verteilung prüft, wie symmetrisch oder asymmetrisch die Daten sind, sowie die Schiefe der Daten und kann entweder normal, binomial, Bernoulli oder sein Poisson.
Zusammenfassend ist die explorative Datenanalyse ein wichtiger Prozess, um ein besseres Verständnis der Daten zu erlangen. Es ermöglicht bessere Visualisierungen und Modellbildung.
Das obige ist der detaillierte Inhalt vonIhre Daten verstehen: Die Grundlagen der explorativen Datenanalyse (EDA).. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!