提高Pandas 系列中多個子字串篩選的效能
當嘗試篩選特定字串列至少包含一個子字串的行時給定列表,使用np.logic_or.reduce() 的傳統方法對於大型資料集可能效率低。本文探討了一種利用正規表示式來增強效能的替代方法。
建議的解決方案
我們在str.contains() 中不使用regex=False,而是使用正規表示式使用re.escape() 正確轉義提供的子字串之後。這確保了文字匹配而不是正則表達式解釋。然後使用正規表示式管道 (|) 將轉義的子字串組合成單一模式。
屏蔽過程
屏蔽階段成為整個系列的循環,檢查是否每個字串與模式匹配:
df[col].str.contains(pattern, case=False)
效能比較
使用包含100 個長度為5 的子字串和50,000 個長度為 20 的字串的樣本資料集,所提出的方法大約需要 1 秒。對於相同的數據,原始方法大約需要 5 秒。
注意
此解假設沒有子字串匹配的「最壞情況」場景。在有比賽的情況下,表現會進一步提高。此外,這種方法比最初的方法更有效,減少了每行所需的檢查數量。
以上是正規表示式如何提高Pandas系列子串過濾性能?的詳細內容。更多資訊請關注PHP中文網其他相關文章!