Pandas DataFrame:以兩列分組並統計觀察值
在資料分析中,經常需要根據特定欄位將資料分組,計算每組內的觀察數。為了使用 Pandas DataFrame 實現此目的,讓我們深入研究以下問題。
問題陳述:
考慮具有多個列的 Pandas DataFrame。目標是根據兩列(即「col5」和「col2」)對 DataFrame 進行分組,並計算每組中唯一行的數量。此外,我們想要確定每個“col2”值的最大計數。
解:
要將 DataFrame 分組並計算每組中的行數,我們可以利用 Pandas groupby() 函數。這是逐步方法:
第1 步:將DataFrame 進行分組
按「col5」和「col2」欄位對DataFrame 進行分組:
<code class="python">grouped_df = df.groupby(['col5', 'col2'])</code>
第2 步:計算行數
對分組的DataFrame 應用size() 函數來計算每組中唯一行的數量:
<code class="python">counts = grouped_df.size()</code>
第3 步:找出每個「col2」的最大計數
要找每個「col2」值的最大計數,我們可以進一步按「col2」對DataFrame 計數進行分組,然後應用max() 函數:
<code class="python">max_counts = counts.groupby(level=1).max()</code>
輸出:
上述步驟將為我們提供兩個單獨的DataFrame:
以上是如何以兩列將 Pandas DataFrame 分組並計算觀察值?的詳細內容。更多資訊請關注PHP中文網其他相關文章!