如何在 Python 中使用 Pandas 提取重複項的綜合列表?
可能會遇到資料集包含以下內容的情況:潛在的出口問題,導致重複的項目。識別這些重複項對於進一步的手動比較至關重要。但是,預設的 pandas 重複方法僅傳回重複項的第一個實例。
方法 1:列印所有具有重複 ID 的行
使用此方法,您可以識別並列印 ID 與重複系列中任何 ID 相符的所有行。
<code class="python">import pandas as pd df = pd.read_csv("dup.csv") ids = df["ID"] df[ids.isin(ids[ids.duplicated()])].sort_values("ID")</code>
方法2:按ID 分組
或者,您可以將dataframe 的ID 列,並將具有多於一行的群組連接到一個新的dataframe 中。
<code class="python">pd.concat(g for _, g in df.groupby("ID") if len(g) > 1)</code>
以上是以下是一些基於問題的標題,它們抓住了文章的精髓: **簡短而有力:** * **如何找到 Pandas 中的所有重複行? ** ** * **擷取 Pandas 資料中的每個重複項的詳細內容。更多資訊請關注PHP中文網其他相關文章!