Pandas DataFrame: 2 つの列によるグループ化と観測値のカウント
データ分析では、特定の列とデータに基づいてデータをグループ化することが必要になることがよくあります。各グループ内の観測値の数を数えます。 Pandas DataFrame を使用してこれを実現するには、次の問題を詳しく調べてみましょう。
問題ステートメント:
複数の列を持つ Pandas DataFrame を考えてみましょう。目標は、2 つの列 ('col5' と 'col2') に基づいて DataFrame をグループ化し、各グループ内の一意の行の数をカウントすることです。さらに、各 'col2' 値の最大数を決定する必要があります。
解決策:
DataFrame をグループ化し、各グループ内の行をカウントするには、次のようにします。 Pandasのgroupby()関数を利用します。以下に段階的なアプローチを示します:
ステップ 1: DataFrame をグループ化する
DataFrame を 'col5' 列と 'col2' 列でグループ化します:
<code class="python">grouped_df = df.groupby(['col5', 'col2'])</code>
ステップ 2: 行を数える
グループ化された DataFrame に size() 関数を適用して、各グループ内の一意の行数を数えます:
<code class="python">counts = grouped_df.size()</code>
ステップ 3: 各 'col2' の最大数を見つける
各 'col2' 値の最大数を見つけるには、カウント DataFrame を 'col2' でさらにグループ化します。 max() 関数を適用します:
<code class="python">max_counts = counts.groupby(level=1).max()</code>
出力:
上記の手順により、2 つの個別の DataFrame が提供されます:
以上がPandas DataFrame を 2 つの列でグループ化し、観測値をカウントする方法は?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。