Pandas のサイズとカウントの違いを理解する
Pandas では、groupby 操作はデータ探索と集計のための強力なツールを提供します。一般的に使用される groupby 演算には、count と size があります。データを効果的に分析するには、これらの区別を理解することが重要です。
カウントとサイズ
カウント操作は、グループ内の非 null 値の数をカウントします。対照的に、size 操作は NaN 値を含むすべての値をカウントします。この違いは、欠損値を含むデータセットを操作するときに明らかになります。
たとえば、次の DataFrame を考えてみましょう:
df = pd.DataFrame({'a':[0,0,1,2,2,2], 'b':[1,2,3,4,np.NaN,4], 'c':np.random.randn(6)})
列 'a' でグループ化し、列 'b に count を適用するとします。 ':
print(df.groupby(['a'])['b'].count())
次の出力が得られます:
a 0 2 1 1 2 2 Name: b, dtype: int64
これは次のことを示していますグループ 0 には null 以外の値が 2 つ、グループ 1 には 1 つ、グループ 2 には 2 つあることがわかります。
一方、size を使用すると、
print(df.groupby(['a'])['b'].size())
が得られます。 :
a 0 2 1 1 2 3 dtype: int64
この場合、結果にはグループ 2 の NaN 値が含まれており、サイズがすべての値を占めることを示しています。
したがって、特定のコンテキストと必要な分析に基づいて、カウントとサイズのどちらかを選択することが重要になります。カウントから null 値を除外したい場合は、count を使用します。値の有無に関係なく、すべての値を考慮する必要がある場合は、size を使用します。
以上がPandas GroupBy: `count()` と `size()` をいつ使用する必要がありますか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。