So lesen Sie CSV-Dateien mit Pandas
Übersicht:
CSV (Comma-Separated Values) ist ein gängiges Tabellenkalkulationsdateiformat, das Kommas oder andere spezifische Zeichen als Trennzeichen für Feldwerte verwendet. Pandas ist eine leistungsstarke Datenverarbeitungsbibliothek, die verschiedene Datendateien, einschließlich CSV-Dateien, einfach lesen, verarbeiten und analysieren kann. In diesem Artikel wird die Verwendung der Pandas-Bibliothek zum Lesen von CSV-Dateien vorgestellt und spezifische Codebeispiele gegeben.
Schritte:
Importieren Sie die erforderlichen Bibliotheken
import pandas as pd
Zuerst müssen wir die Pandas-Bibliothek importieren.
Lesen Sie die CSV-Datei mit der Funktion read_csv von Pandas
data = pd.read_csv('file_path.csv')
In diesem Schritt verwenden wir die Funktion read_csv, um die CSV-Datei zu lesen. Sie müssen file_path.csv durch den Pfad und Dateinamen Ihrer tatsächlichen Datei ersetzen. Diese Funktion lädt den Dateiinhalt in ein DataFrame-Objekt namens data.
Wenn das Feldtrennzeichen in der CSV-Datei kein Komma, sondern andere Zeichen ist, können Sie den Parameter sep verwenden, um das Trennzeichen festzulegen. Wenn das Trennzeichen beispielsweise ein Semikolon ist, lautet der Code wie folgt:
data = pd.read_csv('file_path.csv', sep=';')
Anzeigen von Daten
print(data.head())
Mithilfe der Head-Funktion können wir die ersten paar Zeilen des Datensatzes ausdrucken, um die Daten anzuzeigen Inhalt. Der Standardparameter der Head-Funktion ist 5, was bedeutet, dass die ersten fünf Datenzeilen ausgedruckt werden sollen.
Zeigen Sie die Abmessungen der Daten an (Anzahl der Zeilen und Spalten).
print(data.shape)
Das Shape-Attribut kann die Dimensionsinformationen des DataFrame zurückgeben, z. B. (Anzahl der Zeilen, Anzahl der Spalten).
Spaltennamen anzeigen
print(data.columns)
columns-Eigenschaft kann die Spaltennamenliste von DataFrame zurückgeben.
Statistische Zusammenfassung der Daten anzeigen
print(data.describe())
Die Beschreibungsfunktion kann die statistische Zusammenfassung der Daten zurückgeben, einschließlich Mittelwert, Standardabweichung, Minimalwert, Maximalwert usw.
Daten filtern
Zum Beispiel können wir Daten filtern, um eine Teilmenge der Daten unter bestimmten Bedingungen zu erhalten:
filtered_data = data[data['column_name'] > 10]
Im obigen Beispiel haben wir Daten mit einem Wert größer als 10 im Spaltennamen „Spaltenname“ herausgefiltert.
Daten sortieren
sorted_data = data.sort_values(by='column_name', ascending=True)
Mit der Funktion sort_values können wir die Daten sortieren, nach dem angegebenen Spaltennamen sortieren und eine aufsteigende oder absteigende Reihenfolge festlegen.
Daten speichern
data.to_csv('new_file_path.csv', index=False)
to_csv-Funktion kann das DataFrame-Objekt als neue CSV-Datei speichern. Sie müssen new_file_path.csv durch den Dateinamen und Pfad ersetzen, den Sie tatsächlich speichern möchten. Der Parameter index=False gibt an, dass der Index der Daten nicht gespeichert wird.
Zusammenfassung:
Dieser Artikel stellt die Schritte zur Verwendung von Pandas zum Lesen von CSV-Dateien vor und gibt spezifische Codebeispiele. Pandas bietet eine Fülle von Funktionen und Methoden, mit denen sich Daten einfach verarbeiten und analysieren lassen. Durch die Verwendung dieser Funktionen können wir die Daten in CSV-Dateien besser nutzen.
Das obige ist der detaillierte Inhalt vonSo lesen Sie CSV-Dateien mit der Pandas-Bibliothek. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!