取得Pandas 中所有重複項目的清單
在pandas 中,duplicated 方法可用於基於資料集識別重複行在指定的列上。但是,預設情況下,它僅傳回每個重複項的第一次出現。要獲得完整的列表,請考慮以下方法:
方法#1:使用isin 方法進行過濾
此方法涉及兩個步驟:
使用以下方法從重複行中提取唯一ID:
<code class="python">ids = df[df.duplicated(cols='ID')]['ID']</code>
利用isin 方法過濾ID 與任何重複ID 匹配的所有行:
<code class="python">df[ids.isin(ids[ids.duplicated()])].sort_values("ID")</code>
方法#2:使用groupby 進行分組
此方法使用groupby 操作按ID 列對行進行分組並過濾掉包含多行的分組:
<code class="python">pd.concat(g for _, g in df.groupby("ID") if len(g) > 1)</code>
透過使用這些方法,您可以有效地檢索pandas DataFrame 中重複項的完整清單。
以上是如何取得 Pandas DataFrame 中重複項的完整清單?的詳細內容。更多資訊請關注PHP中文網其他相關文章!