背景
根据字符串中的多个子字符串过滤大型 Pandas 数据帧列可能是一项计算成本较高的操作。传统的方法是为每个子字符串应用掩码,然后使用逻辑运算来减少它。
建议的方法
为了提高效率,我们建议利用正则表达式(带有转义)特殊字符)用于子字符串匹配。通过使用正则表达式管道 (|) 连接转义子字符串,我们可以针对字符串测试每个子字符串,直到找到匹配项。
实现
import re # Escape special characters in substrings esc_lst = [re.escape(s) for s in lst] # Join escaped substrings using regex pipe pattern = '|'.join(esc_lst) # Filter based on concatenated pattern df[col].str.contains(pattern, case=False)
性能注意事项
通过减少数量来增强性能每行所需的测试数。该方法会检查子字符串,直到找到匹配项,从而消除不必要的迭代。
基准测试
使用包含 50,000 个字符串和 100 个子字符串的示例数据帧,所提出的方法大约需要 1其次,与传统方法的五秒相比。这种性能优势会随着数据集的增大而增加。
结论
通过利用带有转义特殊字符的正则表达式,我们可以有效地过滤 Pandas 数据帧中的多个子字符串,从而显着减少计算开销。
以上是正则表达式如何优化 Pandas 对系列中多个子字符串的过滤?的详细内容。更多信息请关注PHP中文网其他相关文章!