在数据分析中,使用大型数据帧通常会导致内存错误。为了解决这个问题,将数据帧分割成更小的、可管理的块可能是一个有价值的策略。本文探讨了如何根据特定列(特别是 AcctName)有效地将大型数据帧分割成块。
您可以使用列表理解来实现此切片:
<code class="python">import numpy as np import pandas as pd # Define the chunk size n = 200,000 # Create a list to store the chunks list_df = [] # Extract unique AcctName values AcctNames = df['AcctName'].unique() # Create a dictionary of dataframes for each AcctName DataFrameDict = {acct: pd.DataFrame for acct in AcctNames} # Split the dataframe into chunks by AcctName for acct in DataFrameDict.keys(): DataFrameDict[acct] = df[df['AcctName'] == acct] # Apply your function to the chunk trans_times_2(DataFrameDict[acct]) list_df.append(DataFrameDict[acct]) # Rejoin the chunks into a single dataframe rejoined_df = pd.concat(list_df)</code>
或者,您可以利用 NumPy 的 array_split 函数:
<code class="python">list_df = np.array_split(df, math.ceil(len(df) / n))</code>
此方法创建一个块列表,您可以单独访问它。
要重新组装原始数据帧,只需使用 pd.concat:
<code class="python">rejoined_df = pd.concat(list_df)</code>
通过利用这些技术,您可以有效地将大型数据帧分割成更小的块,应用必要的转换,然后将结果数据重新组装成单个数据帧。这种方法可以显着减少内存使用并提高数据处理操作的效率。
以上是如何通过 AcctName 将大型 Pandas DataFrame 有效地切成块?的详细内容。更多信息请关注PHP中文网其他相关文章!