Pandas DataFrame GroupBy 値カウントの複数の列
Pandas を使用した DataFrame 操作では、データを複数の列でグループ化すると、貴重な洞察が得られます。この記事では、2 つの列でグループ化しながら観測値をカウントする方法と、各グループの最大数を決定する方法を説明します。
複数の列を持つ DataFrame を指定すると、データをグループ化するために 'groupby' 関数を適用できます。特定の列に基づいて。ここでは、「df」という名前のデータフレームがあり、「col1」、「col2」、「col3」、「col4」、「col5」という 5 つの列があります。
<code class="python">import pandas as pd df = pd.DataFrame([ [1.1, 1.1, 1.1, 2.6, 2.5, 3.4,2.6,2.6,3.4,3.4,2.6,1.1,1.1,3.3], list('AAABBBBABCBDDD'), [1.1, 1.7, 2.5, 2.6, 3.3, 3.8,4.0,4.2,4.3,4.5,4.6,4.7,4.7,4.8], ['x/y/z','x/y','x/y/z/n','x/u','x','x/u/v','x/y/z','x','x/u/v/b','-','x/y','x/y/z','x','x/u/v/w'], ['1','3','3','2','4','2','5','3','6','3','5','1','1','1'] ]).T df.columns = ['col1','col2','col3','col4','col5']</code>
行ごとのカウントグループ
各行グループ内の観測値の数をカウントするには、目的の列で 'groupby' 関数を使用してから、'size' 関数を適用します。
<code class="python">result = df.groupby(['col5', 'col2']).size()</code>
これグループ化された列をインデックスとして、サイズを値として持つ DataFrame が生成されます。
<code class="python">print(result)</code>
最大数の決定
それぞれの最大数を決定するには「col2」の値を指定するには、「col2」で「groupby」関数を使用してから、グループ化されたデータに「max」関数を適用します。
<code class="python">result = df.groupby(['col5', 'col2']).size().groupby(level=1).max()</code>
これにより、各「col2」の最大数を持つシリーズが生成されます。 ' value.
<code class="python">print(result)</code>
要約すると、Pandas で「groupby」関数と「size」関数を使用すると、データの効率的な分析と集計が可能になり、ユーザーはさまざまな方法でデータに関する洞察を抽出できるようになります。
以上がPandas DataFrame GroupBy を使用して値のカウントを実行し、複数の列の最大カウントを見つける方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。