首页 > 后端开发 > Python教程 > 如何有效地将多个 CSV 文件连接到单个 Pandas DataFrame 中并跟踪数据来源?

如何有效地将多个 CSV 文件连接到单个 Pandas DataFrame 中并跟踪数据来源?

Linda Hamilton
发布: 2024-12-22 21:33:18
原创
752 人浏览过

How Can I Efficiently Concatenate Multiple CSV Files into a Single Pandas DataFrame and Track Data Provenance?

将多个 CSV 文件连接到一个 DataFrame

问题陈述

将多个 CSV 文件有效地组合成一个统一的 DataFrame,一个简洁可靠的解决方案被寻求。但是,在串联循环中遇到了障碍。

解决方案

要解决该问题并成功串联 CSV 文件,可以使用以下综合代码片段:

import os
import pandas as pd
from pathlib import Path

path = r'C:\DRO\DCL_rawdata_files'
all_files = Path(path).glob('*.csv')

df = pd.concat((pd.read_csv(f) for f in all_files), ignore_index=True)
登录后复制

此代码利用生成器表达式单独读取每个 CSV 文件,然后将它们连接到单个 DataFrame 中。 ignore_index 参数确保串联的 DataFrame 具有连续的行索引。

添加信息以识别数据来源

在某些情况下,向串联的 DataFrame 添加一列来指示源可能会有所帮助每行的文件。这可以使用以下方法之一来实现:

选项 1:添加文件名作为新列

dfs = []
for f in all_files:
    data = pd.read_csv(f)
    data['file'] = f.stem
    dfs.append(data)

df = pd.concat(dfs, ignore_index=True)
登录后复制

选项 2:添加通用文件来源为新列

dfs = []
for i, f in enumerate(all_files):
    data = pd.read_csv(f)
    data['file'] = f'File {i}'
    dfs.append(data)

df = pd.concat(dfs, ignore_index=True)
登录后复制

选项3:使用列表理解添加文件源

dfs = [pd.read_csv(f) for f in all_files]
df = pd.concat(dfs, ignore_index=True)
df['Source'] = np.repeat([f'S{i}' for i in range(len(dfs))], [len(df) for df in dfs])
登录后复制

选项 4:使用 .assign() 的单行解决方案

df = pd.concat((pd.read_csv(f).assign(filename=f.stem) for f in all_files), ignore_index=True)
登录后复制

通过实现一个在这些选项中,连接的 DataFrame 将使用信息进行注释以跟踪每行的来源。

以上是如何有效地将多个 CSV 文件连接到单个 Pandas DataFrame 中并跟踪数据来源?的详细内容。更多信息请关注PHP中文网其他相关文章!

来源:php.cn
本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
作者最新文章
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板