如何通过 AcctName 将大型 Pandas DataFrame 有效地切成块?

Barbara Streisand
发布: 2024-10-25 22:04:28
原创
465 人浏览过

How to Efficiently Slice a Large Pandas DataFrame into Chunks by AcctName?

Pandas - 按 AcctName 将大型数据帧切成块

在数据分析中,使用大型数据帧通常会导致内存错误。为了解决这个问题,将数据帧分割成更小的、可管理的块可能是一个有价值的策略。本文探讨了如何根据特定列(特别是 AcctName)有效地将大型数据帧分割成块。

您可以使用列表理解来实现此切片:

<code class="python">import numpy as np
import pandas as pd

# Define the chunk size
n = 200,000

# Create a list to store the chunks
list_df = []

# Extract unique AcctName values
AcctNames = df['AcctName'].unique()

# Create a dictionary of dataframes for each AcctName
DataFrameDict = {acct: pd.DataFrame for acct in AcctNames}

# Split the dataframe into chunks by AcctName
for acct in DataFrameDict.keys():
    DataFrameDict[acct] = df[df['AcctName'] == acct]
    
    # Apply your function to the chunk
    trans_times_2(DataFrameDict[acct])
    list_df.append(DataFrameDict[acct])
    
# Rejoin the chunks into a single dataframe
rejoined_df = pd.concat(list_df)</code>
登录后复制

或者,您可以利用 NumPy 的 array_split 函数:

<code class="python">list_df = np.array_split(df, math.ceil(len(df) / n))</code>
登录后复制

此方法创建一个块列表,您可以单独访问它。

要重新组装原始数据帧,只需使用 pd.concat:

<code class="python">rejoined_df = pd.concat(list_df)</code>
登录后复制

通过利用这些技术,您可以有效地将大型数据帧分割成更小的块,应用必要的转换,然后将结果数据重新组装成单个数据帧。这种方法可以显着减少内存使用并提高数据处理操作的效率。

以上是如何通过 AcctName 将大型 Pandas DataFrame 有效地切成块?的详细内容。更多信息请关注PHP中文网其他相关文章!

来源:php.cn
本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
作者最新文章
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板