如何获取 Pandas DataFrame 中重复项的完整列表？-Python教程-PHP中文网

如何获取 Pandas DataFrame 中重复项的完整列表？

Susan Sarandon

发布： 2024-10-26 03:35:02

原创

928 人浏览过

How to Get a Complete List of Duplicate Items in a Pandas DataFrame?

获取 Pandas 中所有重复项的列表

在 pandas 中，duplicated 方法可用于基于数据集识别重复行在指定的列上。但是，默认情况下，它仅返回每个重复项的第一次出现。要获得完整的列表，请考虑以下方法：

方法#1：使用 isin 方法进行过滤

此方法涉及两个步骤：

使用以下方法从重复行中提取唯一 ID：

<code class="python">ids = df[df.duplicated(cols='ID')]['ID']</code>

登录后复制

利用 isin 方法过滤 ID 与任何重复 ID 匹配的所有行：
```
<code class="python">df[ids.isin(ids[ids.duplicated()])].sort_values("ID")</code>
```
登录后复制

方法 #2：使用 groupby 进行分组

此方法使用 groupby 操作按 ID 列对行进行分组并过滤掉包含多行的分组：

<code class="python">pd.concat(g for _, g in df.groupby("ID") if len(g) > 1)</code>

登录后复制

通过使用这些方法，您可以有效地检索 pandas DataFrame 中重复项的完整列表。

以上是如何获取 Pandas DataFrame 中重复项的完整列表？的详细内容。更多信息请关注PHP中文网其他相关文章！