データを操作するとき、特定のデータに基づいてデータを要約して分析できると便利なことがよくあります。グループ化基準。データ操作と分析のための強力な Python ライブラリである Pandas は、GroupBy 機能を通じてこれを行うための便利な方法を提供します。
各グループ内の行数を取得するには、.size を利用します。 () メソッド。シリーズを返します。
df.groupby(['col1','col2']).size()
これを DataFrame フォームに変換するには、次のようにします。採用:
df.groupby(['col1', 'col2']).size().reset_index(name='counts')
または、各グループの行数とその他の統計を計算するには、次のアプローチを使用できます。
df.groupby(['col1', 'col2'])[['col3', 'col4']].agg({ 'col3': ['mean', 'count'], 'col4': ['median', 'min', 'count'] })
としましょう。列col1からcol4を持つdfという名前のデータフレームがあります。説明のために、グループごとの行数を計算してみましょう。
df.groupby(['col1', 'col2']).size()
出力には、col1 値とcol2 値の一意の組み合わせごとに行数が表示されます。
これらの数を列を DataFrame に追加するには、.reset_index(name='counts') メソッドを利用できます。
df.groupby(['col1', 'col2']).size().reset_index(name='counts')
グループ化されたデータに対して複数の統計を計算したい場合は、agg() メソッドを使用できます。たとえば、col3 の平均と数、col4 の中央値、最小値、および数を計算するには、次を使用します。
df.groupby(['col1', 'col2']).agg({ 'col3': ['mean', 'count'], 'col4': ['median', 'min', 'count'] })
これにより、col1 の一意の組み合わせごとに、要求された統計情報を含むデータフレームが返されます。
Pandas GroupBy は、特定の基準に基づいてデータを分析するための強力なツールです。適切な方法と集計を利用することで、グループごとの統計を効率的に取得して洞察を得て、データをより徹底的に理解できます。
以上がGroupBy を使用してパンダでグループごとの統計を計算する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。