如何辨識 Pandas DataFrame 中的所有重複行?

Barbara Streisand
發布: 2024-10-25 15:15:02
原創
987 人瀏覽過

How to Identify All Duplicate Rows in a Pandas DataFrame?

如何在 Python 中使用 Pandas 取得所有重複項的清單?

問題:

您的 Pandas DataFrame 包含重複行,但使用 duplicated() 方法只傳回第一個重複實例。您需要所有出現的重複行的完整清單以進行手動比較。

解 1:隔離具有重複 ID 的行

  1. 將 Pandas 匯入為 pd。
  2. 將資料讀入 DataFrame df。
  3. 將 ID 欄位擷取到單獨的 Series id 中。
  4. 根據ID 值是否與中的任何重複ID 匹配來過濾df ids[ids.duplicated()]:

雖然此方法有效檢索所有重複行,但它會在輸出中建立重複的ID 行。

解決方案 2 :按 ID 分組並過濾重複項

  1. 在 df 上使用 groupby("ID") 將行分組依 ID 值分組。
  2. 過濾結果組以僅保留具有多行的:

這種方法會產生精簡的輸出,沒有多餘的 ID 行。

以上是如何辨識 Pandas DataFrame 中的所有重複行?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

來源:php.cn
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
作者最新文章
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板
關於我們 免責聲明 Sitemap
PHP中文網:公益線上PHP培訓,幫助PHP學習者快速成長!