首頁 > 後端開發 > Python教學 > 正規表示式如何提高Pandas系列子串過濾性能?

正規表示式如何提高Pandas系列子串過濾性能?

DDD
發布: 2024-11-27 00:14:10
原創
695 人瀏覽過

How Can Regular Expressions Improve Pandas Series Substring Filtering Performance?

提高Pandas 系列中多個子字串篩選的效能

當嘗試篩選特定字串列至少包含一個子字串的行時給定列表,使用np.logic_or.reduce() 的傳統方法對於大型資料集可能效率低。本文探討了一種利用正規表示式來增強效能的替代方法。

建議的解決方案

我們在str.contains() 中不使用regex=False,而是使用正規表示式使用re.escape() 正確轉義提供的子字串之後。這確保了文字匹配而不是正則表達式解釋。然後使用正規表示式管道 (|) 將轉義的子字串組合成單一模式。

屏蔽過程

屏蔽階段成為整個系列的循環,檢查是否每個字串與模式匹配:

df[col].str.contains(pattern, case=False)
登入後複製

效能比較

使用包含100 個長度為5 的子字串和50,000 個長度為 20 的字串的樣本資料集,所提出的方法大約需要 1 秒。對於相同的數據,原始方法大約需要 5 秒。

注意

此解假設沒有子字串匹配的「最壞情況」場景。在有比賽的情況下,表現會進一步提高。此外,這種方法比最初的方法更有效,減少了每行所需的檢查數量。

以上是正規表示式如何提高Pandas系列子串過濾性能?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

來源:php.cn
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板