如何基於多列統計 Pandas DataFrame 中重複行的頻率?

Susan Sarandon
發布: 2024-10-25 03:17:02
原創
536 人瀏覽過

How to Count the Frequency of Duplicate Rows in a Pandas DataFrame Based on Multiple Columns?

根據多個資料幀列取得頻率計數

在給定的資料幀中,每行由多列組成,通常有必要確定重複行出現的頻率。這個任務可以使用 Python 的 pandas 函式庫來完成。

解決方案

pandas groupby() 函數允許根據特定列對行進行分組。要計算重複行的頻率,我們可以按所需的列進行分組並利用size() 函數:

<code class="python">dfg = df.groupby(by=["Group", "Size"]).size()</code>
登入後複製

此程式碼將產生一個pandas.Series 對象,其中組鍵作為索引和頻率算作值。要將其轉換為資料幀,我們可以使用reset_index() 函數:

<code class="python">dfg = df.groupby(by=["Group", "Size"]).size().reset_index(name="Time")</code>
登入後複製

在此範例中,產生的資料幀將包含「Group」、「Size」和「Time」列,其中“Time”代表頻率計數。

另一種方法是在 groupby() 中使用 as_index=False 參數:

<code class="python">dfg = df.groupby(by=["Group", "Size"], as_index=False).size()</code>
登入後複製

這將直接產生資料幀,而不需要進一步索引操作。

透過利用這些技術,您可以輕鬆獲得基於資料幀中多個列的頻率計數,並獲得有關資料分佈的寶貴見解。

以上是如何基於多列統計 Pandas DataFrame 中重複行的頻率?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

來源:php.cn
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
作者最新文章
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板
關於我們 免責聲明 Sitemap
PHP中文網:公益線上PHP培訓,幫助PHP學習者快速成長!