获取 Pandas 中所有重复项的列表
在 pandas 中,duplicated 方法可用于基于数据集识别重复行在指定的列上。但是,默认情况下,它仅返回每个重复项的第一次出现。要获得完整的列表,请考虑以下方法:
方法#1:使用 isin 方法进行过滤
此方法涉及两个步骤:
使用以下方法从重复行中提取唯一 ID:
<code class="python">ids = df[df.duplicated(cols='ID')]['ID']</code>
利用 isin 方法过滤 ID 与任何重复 ID 匹配的所有行:
<code class="python">df[ids.isin(ids[ids.duplicated()])].sort_values("ID")</code>
方法 #2:使用 groupby 进行分组
此方法使用 groupby 操作按 ID 列对行进行分组并过滤掉包含多行的分组:
<code class="python">pd.concat(g for _, g in df.groupby("ID") if len(g) > 1)</code>
通过使用这些方法,您可以有效地检索 pandas DataFrame 中重复项的完整列表。
以上是如何获取 Pandas DataFrame 中重复项的完整列表?的详细内容。更多信息请关注PHP中文网其他相关文章!