如何有效地将多个 CSV 文件连接到单个 Pandas DataFrame 中并跟踪数据来源?
将多个 CSV 文件连接到一个 DataFrame
问题陈述
将多个 CSV 文件有效地组合成一个统一的 DataFrame,一个简洁可靠的解决方案被寻求。但是,在串联循环中遇到了障碍。
解决方案
要解决该问题并成功串联 CSV 文件,可以使用以下综合代码片段:
import os import pandas as pd from pathlib import Path path = r'C:\DRO\DCL_rawdata_files' all_files = Path(path).glob('*.csv') df = pd.concat((pd.read_csv(f) for f in all_files), ignore_index=True)
此代码利用生成器表达式单独读取每个 CSV 文件,然后将它们连接到单个 DataFrame 中。 ignore_index 参数确保串联的 DataFrame 具有连续的行索引。
添加信息以识别数据来源
在某些情况下,向串联的 DataFrame 添加一列来指示源可能会有所帮助每行的文件。这可以使用以下方法之一来实现:
选项 1:添加文件名作为新列
dfs = [] for f in all_files: data = pd.read_csv(f) data['file'] = f.stem dfs.append(data) df = pd.concat(dfs, ignore_index=True)
选项 2:添加通用文件来源为新列
dfs = [] for i, f in enumerate(all_files): data = pd.read_csv(f) data['file'] = f'File {i}' dfs.append(data) df = pd.concat(dfs, ignore_index=True)
选项3:使用列表理解添加文件源
dfs = [pd.read_csv(f) for f in all_files] df = pd.concat(dfs, ignore_index=True) df['Source'] = np.repeat([f'S{i}' for i in range(len(dfs))], [len(df) for df in dfs])
选项 4:使用 .assign() 的单行解决方案
df = pd.concat((pd.read_csv(f).assign(filename=f.stem) for f in all_files), ignore_index=True)
通过实现一个在这些选项中,连接的 DataFrame 将使用信息进行注释以跟踪每行的来源。
以上是如何有效地将多个 CSV 文件连接到单个 Pandas DataFrame 中并跟踪数据来源?的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

Linux终端中查看Python版本时遇到权限问题的解决方法当你在Linux终端中尝试查看Python的版本时,输入python...

使用FiddlerEverywhere进行中间人读取时如何避免被检测到当你使用FiddlerEverywhere...

在使用Python的pandas库时,如何在两个结构不同的DataFrame之间进行整列复制是一个常见的问题。假设我们有两个Dat...

Uvicorn是如何持续监听HTTP请求的?Uvicorn是一个基于ASGI的轻量级Web服务器,其核心功能之一便是监听HTTP请求并进�...

如何在10小时内教计算机小白编程基础?如果你只有10个小时来教计算机小白一些编程知识,你会选择教些什么�...

攻克Investing.com的反爬虫策略许多人尝试爬取Investing.com(https://cn.investing.com/news/latest-news)的新闻数据时,常常�...
