複数のグループ化と平均を使用したグループ別集計
Pandas では、複数のレベルでグループ化されたデータに対して集計を実行するのが一般的な操作です。次の DataFrame について考えてみましょう:
cluster org time 1 a 8 1 a 6 2 h 34 1 c 23 2 d 74 3 w 6
一般的なタスクは、「cluster」や「org」などの複数の変数で定義されたグループごとに、「time」などの特定の列の平均を計算することです。
解決策 1: クラスター グループのみの平均
「クラスター」のみでグループ化された「時間」の平均を計算するには、次のコードを使用できます。
df.groupby(['cluster']).mean()
結果:
time cluster 1 12.333333 2 54.000000 3 6.000000
解決策 2: グループ化の組み合わせの平均値
を計算したい場合「クラスター」と「組織」の各組み合わせの「時間」の平均値:
df.groupby(['cluster', 'org']).mean()
結果:
time cluster org 1 a 438886 c 23 2 d 9874 h 34 3 w 6
解決策 3: グループ化のネストされた平均
ネストされた平均を実行するには、最初に「cluster」と「org」の組み合わせで平均を計算し、次に「cluster」グループで平均を計算します。
(df.groupby(['cluster', 'org'], as_index=False).mean() .groupby('cluster')['time'].mean())
結果:
cluster mean(time) 1 15 #=((8 + 6) / 2 + 23) / 2 2 54 #=(74 + 34) / 2 3 6
以上がPandas で複数のグループ化で平均値を計算する方法は?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。