参与者如何有效地将百万行数据帧分割成更小的数据帧？-Python教程-PHP中文网

参与者如何有效地将百万行数据帧分割成更小的数据帧？

Susan Sarandon

发布： 2024-12-03 01:31:11

原创

418 人浏览过

How to Efficiently Split a Million-Row DataFrame into Smaller DataFrames by Participant?

将 DataFrame 拆分为多个 DataFrame

处理海量数据集时，可能需要将它们拆分为更小的块以进行高效处理。这可以通过根据唯一标识符划分 DataFrame 来实现，从而产生多个较小的 DataFrame。在本例中，目标是将 100 万行 DataFrame 划分为 60 个较小的 DataFrame，每个数据框对应由“name”变量标识的每个参与者。

不幸的是，提供的用于拆分 DataFrame 的 Python 代码无法实现完成任务。建议使用一种替代方法，利用 Pandas 的切片和索引功能，而不是无限期地运行。下面是修改后的代码：

import pandas as pd

# Create a list of unique participant names
unique_names = data['name'].unique()

# Create a dictionary to store the DataFrames for each participant
participant_data = {name: pd.DataFrame() for name in unique_names}

# Populate the dictionary with sliced DataFrames for each participant
for name in unique_names:
    participant_data[name] = data[data['name'] == name]

登录后复制

此代码根据“名称”列有效地对 DataFrame 进行切片，为每个参与者创建单独的 DataFrame，同时避免了先前代码的陷阱。

以上是参与者如何有效地将百万行数据帧分割成更小的数据帧？的详细内容。更多信息请关注PHP中文网其他相关文章！