Verketten mehrerer CSV-Dateien in einem einzigen DataFrame
Das Importieren mehrerer CSV-Dateien in Pandas und deren Verkettung in einem großen DataFrame kann mit dem erreicht werden Folgende Schritte:
-
Lesen Sie die CSV-Dateien: Verwenden Sie glob.glob(), um eine Liste aller CSV-Dateien im angegebenen Verzeichnis zu erhalten. Lesen Sie dann jede CSV-Datei mit pd.read_csv() und speichern Sie die resultierenden DataFrames in einer Liste.
import glob
import pandas as pd
# Get data file names
path = r'C:\DRO\DCL_rawdata_files'
filenames = glob.glob(path + "/*.csv")
dfs = []
for filename in filenames:
dfs.append(pd.read_csv(filename))
Nach dem Login kopieren
-
Verketten Sie die DataFrames: Verwenden Sie pd. concat(), um alle DataFrames in der Liste in einem einzigen DataFrame zu verketten. Legen Sie „ignore_index=True“ fest, um Indexkonflikte beim Verketten zu vermeiden.
# Concatenate all data into one DataFrame
big_frame = pd.concat(dfs, ignore_index=True)
Nach dem Login kopieren
Zusätzliche Überlegungen:
- Stellen Sie sicher, dass alle CSV-Dateien dieselben Spalten haben für eine erfolgreiche Verkettung.
- Wenn die CSV-Dateien unterschiedliche Spaltennamen oder Formate haben, sollten Sie die Verwendung zusätzlicher Spaltennamen in Betracht ziehen Vorverarbeitungsschritte, um sie vor der Verkettung auszurichten.
- Um jedes Datenbeispiel zu identifizieren, fügen Sie dem DataFrame eine neue Spalte mit Informationen wie dem Dateinamen oder einer eindeutigen Kennung hinzu.
Das obige ist der detaillierte Inhalt vonWie kombiniere ich mehrere CSV-Dateien in einem einzigen Pandas DataFrame?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!