大規模なデータセットを扱う場合、効率的に処理するためにデータセットをより小さなチャンクに分割することが必要になる場合があります。これは、一意の識別子に基づいて DataFrame を分割し、複数のより小さい DataFrame を生成することで実現できます。この場合の目標は、100 万行の DataFrame を、「name」変数で識別される参加者ごとに 1 つずつ、60 個の小さな DataFrame に分割することです。
残念ながら、DataFrame を分割するために提供された Python コードは失敗します。タスクを完了します。無制限に実行する代わりに、Pandas のスライス機能とインデックス作成機能を利用する別のアプローチをお勧めします。変更されたコードは次のとおりです。
import pandas as pd # Create a list of unique participant names unique_names = data['name'].unique() # Create a dictionary to store the DataFrames for each participant participant_data = {name: pd.DataFrame() for name in unique_names} # Populate the dictionary with sliced DataFrames for each participant for name in unique_names: participant_data[name] = data[data['name'] == name]
このコードは、前のコードの落とし穴を回避しながら、「name」列に基づいて DataFrame を効率的にスライスし、参加者ごとに個別の DataFrame を作成します。
以上が参加者ごとに 100 万行のデータフレームをより小さなデータフレームに効率的に分割するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。