如何取得 Pandas DataFrame 中重複項的完整清單?

Susan Sarandon
發布: 2024-10-26 03:35:02
原創
734 人瀏覽過

How to Get a Complete List of Duplicate Items in a Pandas DataFrame?

取得Pandas 中所有重複項目的清單

在pandas 中,duplicated 方法可用於基於資料集識別重複行在指定的列上。但是,預設情況下,它僅傳回每個重複項的第一次出現。要獲得完整的列表,請考慮以下方法:

方法#1:使用isin 方法進行過濾

此方法涉及兩個步驟:

  1. 使用以下方法從重複行中提取唯一ID:

    <code class="python">ids = df[df.duplicated(cols='ID')]['ID']</code>
    登入後複製
  2. 利用isin 方法過濾ID 與任何重複ID 匹配的所有行:

    <code class="python">df[ids.isin(ids[ids.duplicated()])].sort_values("ID")</code>
    登入後複製

方法#2:使用groupby 進行分組

此方法使用groupby 操作按ID 列對行進行分組並過濾掉包含多行的分組:

<code class="python">pd.concat(g for _, g in df.groupby("ID") if len(g) > 1)</code>
登入後複製

透過使用這些方法,您可以有效地檢索pandas DataFrame 中重複項的完整清單。

以上是如何取得 Pandas DataFrame 中重複項的完整清單?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

來源:php.cn
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
作者最新文章
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板
關於我們 免責聲明 Sitemap
PHP中文網:公益線上PHP培訓,幫助PHP學習者快速成長!