Rumah > pembangunan bahagian belakang > Tutorial Python > Bagaimanakah Saya Boleh Menggabungkan Berbilang Fail CSV ke dalam Satu Pandas DataFrame dalam Python?

Bagaimanakah Saya Boleh Menggabungkan Berbilang Fail CSV ke dalam Satu Pandas DataFrame dalam Python?

Mary-Kate Olsen
Lepaskan: 2024-12-28 14:02:10
asal
884 orang telah melayarinya

How Can I Combine Multiple CSV Files into a Single Pandas DataFrame in Python?

Menggabungkan Berbilang Fail CSV ke dalam DataFrame Tunggal dalam Python

Matlamat tugas ini adalah untuk mengimport berbilang fail CSV daripada direktori ke dalam satu DataFrame panda. Begini cara untuk mencapainya:

Mengimport Perpustakaan yang Diperlukan

Pertama, import perpustakaan yang diperlukan untuk pengendalian fail dan manipulasi data:

import pandas as pd
import glob
import os
Salin selepas log masuk

Membaca dan Menggabungkan Fail CSV

Untuk membaca dan menggabungkan fail CSV, ikuti ini langkah:

  1. Dapatkan Nama Fail: Gunakan glob.glob() untuk mendapatkan senarai nama fail CSV dalam direktori yang ditentukan.
  2. Baca Fail dan Cipta DataFrames: Baca setiap fail CSV menjadi panda DataFrame.
  3. Concatenate DataFrames: Gunakan kaedah pd.concat() untuk menggabungkan semua DataFrame menjadi satu DataFrame.

Kod untuk Concatenation

Berikut ialah contoh kod yang menggabungkan kod ini langkah:

# Get file names
path = r"C:\DRO\DCL_rawdata_files"
filenames = glob.glob(os.path.join(path, "*.csv"))

dfs = []
for filename in filenames:
    dfs.append(pd.read_csv(filename, header=0))

# Concatenate data into one DataFrame
big_frame = pd.concat(dfs, ignore_index=True)
Salin selepas log masuk

Menambah Identiti pada DataFrames

Untuk membezakan antara data daripada fail CSV yang berbeza, anda boleh menambah lajur baharu untuk mengenal pasti setiap fail. Berikut ialah beberapa pilihan untuk berbuat demikian:

Pilihan 1: Tambahkan Nama Fail sebagai Lajur

for df in dfs:
    df["file_name"] = df.file_name.str.split("\").str[-1].str.split(".")[0]
Salin selepas log masuk

Pilihan 2: Tambah Sumber Fail sebagai Lajur

df["Source"] = np.repeat([f"File{i}" for i in range(len(dfs))], [len(df) for df in dfs])
Salin selepas log masuk

Kesimpulan

Dengan mengikuti langkah-langkah ini, anda boleh mengimport berbilang fail CSV dengan cekap ke dalam satu DataFrame yang kohesif dalam Python, menjadikannya mudah untuk menganalisis dan memproses data daripada pelbagai sumber.

Atas ialah kandungan terperinci Bagaimanakah Saya Boleh Menggabungkan Berbilang Fail CSV ke dalam Satu Pandas DataFrame dalam Python?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

sumber:php.cn
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Artikel terbaru oleh pengarang
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan