Wie Pandas Excel-Dateien liest und Daten verarbeitet
Einführung:
Pandas ist ein häufig verwendetes Datenverarbeitungs- und Analysetool. Es bietet eine Fülle von Funktionen und Methoden, die Benutzern das Bereinigen, Transformieren und Analysieren von Daten erleichtern. Bei der tatsächlichen Arbeit müssen wir häufig Datendateien im Excel-Format verarbeiten. In diesem Artikel wird erläutert, wie Sie mit Pandas Excel-Dateien lesen und die Daten verarbeiten und analysieren können.
1. Installieren und importieren Sie die Pandas-Bibliothek
Bevor wir beginnen, müssen wir zunächst die Pandas-Bibliothek installieren. Sie können den folgenden Befehl verwenden, um Pandas über pip zu installieren:
pip install pandas
Nach Abschluss der Installation können Sie die Pandas-Bibliothek über den folgenden Code importieren:
import pandas as pd
2. Excel-Dateien lesen
Es gibt zwei häufig verwendete Methoden zum Lesen von Excel Dateien: read_excel() und read_csv(). In diesem Artikel verwenden wir die Methode read_excel() zum Lesen von Excel-Dateien.
Angenommen, unsere Excel-Datei heißt data.xlsx und enthält ein Arbeitsblatt mit dem Namen Sheet1. Wir können die Excel-Datei mit dem folgenden Code lesen:
df = pd.read_excel('data.xlsx', sheet_name='Sheet1')
Nach Abschluss des Lesevorgangs werden die Daten im DataFrame-Objekt df gespeichert.
3. Datenverarbeitung und -analyse
Nachdem wir die Excel-Datei gelesen haben, können wir verschiedene Funktionen und Methoden von Pandas verwenden, um die Daten zu bereinigen, zu konvertieren und zu analysieren.
Daten anzeigen
Sie können den folgenden Code verwenden, um die ersten Zeilen der Daten anzuzeigen:
print(df.head())
Grundlegende Statistiken
Sie können die Funktion „beschreiben()“ verwenden, um die grundlegenden Statistiken der Daten anzuzeigen, z Minimalwert, Maximalwert, Durchschnittswert usw.:
print(df.describe())
Datenfilterung
Sie können den folgenden Code verwenden, um eine Teilmenge von Daten herauszufiltern, die die Bedingungen erfüllen:
subset = df[df['列名'] > 50] print(subset)
Datensortierung
Sie können die verwenden Funktion sort_values() zum Sortieren der Daten, z. B. Sortieren in aufsteigender Reihenfolge nach einer bestimmten Spalte:
sorted_df = df.sort_values(by='列名', ascending=True) print(sorted_df)
Datengruppierung
Sie können die Funktion groupby() verwenden, um Daten zu gruppieren und Aggregationsvorgänge durchzuführen, z. B. Summen, Durchschnittswerte, usw.:
grouped_df = df.groupby('列名').sum() print(grouped_df)
Datenvisualisierung
Sie können die von Pandas bereitgestellte Funktion plot() verwenden, um die Daten zu gruppieren. Führen Sie eine Visualisierung durch, z. B. das Zeichnen von Säulendiagrammen, Liniendiagrammen usw.:
df.plot(kind='bar', x='列名', y='列名')
4. Speichern Sie die Ergebnisse
Nach Abschluss der Datenverarbeitung und -analyse können wir den folgenden Code verwenden, um die Ergebnisse in einer Excel-Datei zu speichern:
df.to_excel('result.xlsx', index=False)
Zusammenfassung:
Dieser Artikel stellt vor, wie Pandas zum Lesen von Excel-Dateien und Verarbeiten von Daten verwendet wird, und gibt Codebeispiele . Durch die leistungsstarken Funktionen und Methoden von Pandas können wir Excel-Daten einfach bereinigen, konvertieren und analysieren und so die Effizienz und Genauigkeit der Datenverarbeitung verbessern.
Das Obige ist eine Einführung in die Art und Weise, wie Pandas Excel-Dateien liest und Daten verarbeitet. Ich hoffe, dass es für die Leser hilfreich ist. Danke fürs Lesen!
Das obige ist der detaillierte Inhalt vonSo lesen und verarbeiten Sie Excel-Dateien mit Pandas. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!