将多个 CSV 文件有效地组合成一个统一的 DataFrame,一个简洁可靠的解决方案被寻求。但是,在串联循环中遇到了障碍。
要解决该问题并成功串联 CSV 文件,可以使用以下综合代码片段:
import os import pandas as pd from pathlib import Path path = r'C:\DRO\DCL_rawdata_files' all_files = Path(path).glob('*.csv') df = pd.concat((pd.read_csv(f) for f in all_files), ignore_index=True)
此代码利用生成器表达式单独读取每个 CSV 文件,然后将它们连接到单个 DataFrame 中。 ignore_index 参数确保串联的 DataFrame 具有连续的行索引。
在某些情况下,向串联的 DataFrame 添加一列来指示源可能会有所帮助每行的文件。这可以使用以下方法之一来实现:
选项 1:添加文件名作为新列
dfs = [] for f in all_files: data = pd.read_csv(f) data['file'] = f.stem dfs.append(data) df = pd.concat(dfs, ignore_index=True)
选项 2:添加通用文件来源为新列
dfs = [] for i, f in enumerate(all_files): data = pd.read_csv(f) data['file'] = f'File {i}' dfs.append(data) df = pd.concat(dfs, ignore_index=True)
选项3:使用列表理解添加文件源
dfs = [pd.read_csv(f) for f in all_files] df = pd.concat(dfs, ignore_index=True) df['Source'] = np.repeat([f'S{i}' for i in range(len(dfs))], [len(df) for df in dfs])
选项 4:使用 .assign() 的单行解决方案
df = pd.concat((pd.read_csv(f).assign(filename=f.stem) for f in all_files), ignore_index=True)
通过实现一个在这些选项中,连接的 DataFrame 将使用信息进行注释以跟踪每行的来源。
以上是如何有效地将多个 CSV 文件连接到单个 Pandas DataFrame 中并跟踪数据来源?的详细内容。更多信息请关注PHP中文网其他相关文章!