Pandas GroupBy を使用して各グループの統計を取得する
データ分析を実行するとき、多くの場合、データを要約し、観測グループの統計を計算する必要があります。 。 Pandas の GroupBy 関数は、これを行うための便利な方法を提供します。
グループ統計を計算するには、DataFrame で .groupby() メソッドを使用し、グループ化する列を指定するだけです。次に、.agg() メソッドを使用して、各グループ内のデータを集計できます。
たとえば、次のコードは、データを「col1」列と「col2」列でグループ化し、平均を計算します。
df['col1', 'col2'].groupby(['col1', 'col2']).mean()
これは、次のようなグループ統計を含む DataFrame を返します。
col3 col4 col5 col6 col1 col2 A B -0.3725 -0.810 0.0325 0.5425 C D -0.4766 -0.110 1.3467 -0.6833 E F 0.4550 0.475 -1.0650 0.0300 G H 1.4800 -0.630 0.6500 0.1700
を含む行数
グループ統計に行数を追加するのは簡単です。 .size() メソッドを使用して、各グループの行数をカウントできます。例:
df.groupby(['col1', 'col2']).size()
これにより、行数を含むシリーズが返され、DataFrame に追加できます:
df.groupby(['col1', 'col2']).size().reset_index(name='counts')
複数の統計を含む
平均に加えて、.agg() を使用して中央値、最小値、最大値などの他の統計を計算できます。 方法。たとえば、次のコードは、「col4」列の平均、中央値、最小値を計算します:
df.groupby(['col1', 'col2']).agg({'col4': ['mean', 'median', 'min']})
これは、次のようなグループ統計を含む DataFrame を返します:
col4 mean median min col1 col2 A B -0.3725 -0.810 -1.32 C D -0.4766 -0.110 -1.65 E F 0.4550 0.475 -0.47 G H 1.4800 -0.630 -0.63
追加の考慮事項
以上がPandas GroupBy はどのように統計を計算し、データ分析のために行数を含めることができますか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。