首页 > 后端开发 > Python教程 > 正则表达式如何优化 Pandas 对系列中多个子字符串的过滤?

正则表达式如何优化 Pandas 对系列中多个子字符串的过滤?

Linda Hamilton
发布: 2024-11-28 11:26:11
原创
761 人浏览过

How Can Regular Expressions Optimize Pandas Filtering for Multiple Substrings in a Series?

系列中多个子字符串的 Pandas 过滤优化

背景

根据字符串中的多个子字符串过滤大型 Pandas 数据帧列可能是一项计算成本较高的操作。传统的方法是为每个子字符串应用掩码,然后使用逻辑运算来减少它。

建议的方法

为了提高效率,我们建议利用正则表达式(带有转义)特殊字符)用于子字符串匹配。通过使用正则表达式管道 (|) 连接转义子字符串,我们可以针对字符串测试每个子字符串,直到找到匹配项。

实现

import re

# Escape special characters in substrings
esc_lst = [re.escape(s) for s in lst]

# Join escaped substrings using regex pipe
pattern = '|'.join(esc_lst)

# Filter based on concatenated pattern
df[col].str.contains(pattern, case=False)
登录后复制

性能注意事项

通过减少数量来增强性能每行所需的测试数。该方法会检查子字符串,直到找到匹配项,从而消除不必要的迭代。

基准测试

使用包含 50,000 个字符串和 100 个子字符串的示例数据帧,所提出的方法大约需要 1其次,与传统方法的五秒相比。这种性能优势会随着数据集的增大而增加。

结论

通过利用带有转义特殊字符的正则表达式,我们可以有效地过滤 Pandas 数据帧中的多个子字符串,从而显着减少计算开销。

以上是正则表达式如何优化 Pandas 对系列中多个子字符串的过滤?的详细内容。更多信息请关注PHP中文网其他相关文章!

来源:php.cn
本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
作者最新文章
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板