> 백엔드 개발 > 파이썬 튜토리얼 > 여러 CSV 파일을 단일 Pandas DataFrame으로 효율적으로 연결하고 데이터 출처를 추적하려면 어떻게 해야 합니까?

여러 CSV 파일을 단일 Pandas DataFrame으로 효율적으로 연결하고 데이터 출처를 추적하려면 어떻게 해야 합니까?

Linda Hamilton
풀어 주다: 2024-12-22 21:33:18
원래의
724명이 탐색했습니다.

How Can I Efficiently Concatenate Multiple CSV Files into a Single Pandas DataFrame and Track Data Provenance?

여러 CSV 파일을 단일 DataFrame으로 연결

문제 설명

여러 CSV 파일을 통합 DataFrame으로 효율적으로 결합하는 간결하고 안정적인 솔루션 추구됩니다. 그러나 연결 루프 내에서 장애물이 발생했습니다.

해결책

문제를 해결하고 CSV 파일을 성공적으로 연결하려면 다음과 같은 포괄적인 코드 조각을 사용할 수 있습니다.

import os
import pandas as pd
from pathlib import Path

path = r'C:\DRO\DCL_rawdata_files'
all_files = Path(path).glob('*.csv')

df = pd.concat((pd.read_csv(f) for f in all_files), ignore_index=True)
로그인 후 복사

이 코드는 생성기 표현식을 활용하여 각 CSV 파일을 개별적으로 읽은 다음 이를 단일 DataFrame으로 연결합니다. ignore_index 매개변수는 연결된 DataFrame에 연속 행 인덱스가 있는지 확인합니다.

데이터 출처를 식별하기 위한 정보 추가

특정 시나리오에서는 소스를 나타내는 연결된 DataFrame에 열을 추가하는 것이 도움이 될 수 있습니다. 각 행의 파일. 이는 다음 접근 방식 중 하나를 사용하여 달성할 수 있습니다.

옵션 1: 파일 이름을 새 열로 추가

dfs = []
for f in all_files:
    data = pd.read_csv(f)
    data['file'] = f.stem
    dfs.append(data)

df = pd.concat(dfs, ignore_index=True)
로그인 후 복사

옵션 2: 일반 파일 추가 새 컬럼으로 소스

dfs = []
for i, f in enumerate(all_files):
    data = pd.read_csv(f)
    data['file'] = f'File {i}'
    dfs.append(data)

df = pd.concat(dfs, ignore_index=True)
로그인 후 복사

옵션 3: List Comprehension을 사용하여 파일 소스 추가

dfs = [pd.read_csv(f) for f in all_files]
df = pd.concat(dfs, ignore_index=True)
df['Source'] = np.repeat([f'S{i}' for i in range(len(dfs))], [len(df) for df in dfs])
로그인 후 복사

옵션 4: .sign()을 사용한 단일 라인 솔루션

df = pd.concat((pd.read_csv(f).assign(filename=f.stem) for f in all_files), ignore_index=True)
로그인 후 복사

구현 이러한 옵션 중 연결된 DataFrame에는 각 행의 출처를 추적하는 정보가 주석으로 추가됩니다.

위 내용은 여러 CSV 파일을 단일 Pandas DataFrame으로 효율적으로 연결하고 데이터 출처를 추적하려면 어떻게 해야 합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
저자별 최신 기사
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿