首页 > 后端开发 > Python教程 > 如何有效删除 Pandas 中特定列的重复行?

如何有效删除 Pandas 中特定列的重复行?

DDD
发布: 2024-12-12 19:39:16
原创
374 人浏览过

How Can I Efficiently Remove Duplicate Rows Across Specific Columns in Pandas?

在 Python Pandas 中删除多列中的重复行

pandas drop_duplicates 函数可以消除 DataFrame 中的重复行,DataFrame 是数据清理的宝贵工具。要扩展此功能,可以指定要检查唯一性的列。

例如,考虑以下 DataFrame:

    A   B   C
0   foo 0   A
1   foo 1   A
2   foo 1   B
3   bar 1   A
登录后复制

假设您要删除列中具有相同值的行“A”和“C”。在这种情况下,第 0 行和第 1 行将被消除。

以前,此任务需要手动过滤或复杂的操作。然而,随着 pandas 增强的 drop_duplicates 功能,现在变得轻而易举。 keep 参数的引入允许您控制如何处理重复项。

要删除与特定列匹配的行,请使用subset 参数。通过将 keep 设置为 False,您可以指示 pandas 消除所有重复的行:

import pandas as pd
df = pd.DataFrame({"A":["foo", "foo", "foo", "bar"], "B":[0,1,1,1], "C":["A","A","B","A"]})
df.drop_duplicates(subset=['A', 'C'], keep=False)
登录后复制

输出:

    A   B   C
2   foo 1   B
3   bar 1   A
登录后复制

如您所见,第 0 行和第 1 行已成功删除,只留下基于列“A”和“C”中的值唯一的行。

以上是如何有效删除 Pandas 中特定列的重复行?的详细内容。更多信息请关注PHP中文网其他相关文章!

来源:php.cn
本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板