处理海量数据集时,可能需要将它们拆分为更小的块以进行高效处理。这可以通过根据唯一标识符划分 DataFrame 来实现,从而产生多个较小的 DataFrame。在本例中,目标是将 100 万行 DataFrame 划分为 60 个较小的 DataFrame,每个数据框对应由“name”变量标识的每个参与者。
不幸的是,提供的用于拆分 DataFrame 的 Python 代码无法实现完成任务。建议使用一种替代方法,利用 Pandas 的切片和索引功能,而不是无限期地运行。下面是修改后的代码:
import pandas as pd # Create a list of unique participant names unique_names = data['name'].unique() # Create a dictionary to store the DataFrames for each participant participant_data = {name: pd.DataFrame() for name in unique_names} # Populate the dictionary with sliced DataFrames for each participant for name in unique_names: participant_data[name] = data[data['name'] == name]
此代码根据“名称”列有效地对 DataFrame 进行切片,为每个参与者创建单独的 DataFrame,同时避免了先前代码的陷阱。
以上是参与者如何有效地将百万行数据帧分割成更小的数据帧?的详细内容。更多信息请关注PHP中文网其他相关文章!