問題:
大きなデータフレームを関数の結果はメモリ エラーとなり、データフレーム サイズが過剰であることを示唆しています。目標は次のとおりです。
解決策:
行数によるスライス
固定行数による分割はリストを使用して実行できます。 numpy からの内包表記または array_split:
<code class="python">n = 200000 # Chunk row size list_df = [df[i:i + n] for i in range(0, df.shape[0], n)]</code>
<code class="python">list_df = np.array_split(df, math.ceil(len(df) / n))</code>
Slicing by AcctName
AcctName などの特定の列値でスライスするには:
<code class="python">list_df = [] for n, g in df.groupby('AcctName'): list_df.append(g)</code>
統合
大きなデータフレームがスライスされると、pd.concat:
<code class="python">consolidated_df = pd.concat(list_df)</code>
以上が以下にいくつかのタイトル オプションを示します。それぞれがソリューションのさまざまな側面を強調しています。 問題に焦点を当てる: * メモリ エラーを発生させずに大規模な Pandas データフレームを処理するにはどうすればよいですか? * Pandas のメモリ エラー:の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。