首頁 > 後端開發 > Python教學 > 如何有效地檢查 Pandas DataFrame 列中的多個子字串?

如何有效地檢查 Pandas DataFrame 列中的多個子字串?

Patricia Arquette
發布: 2024-11-30 12:17:11
原創
911 人瀏覽過

How Can I Efficiently Check for Multiple Substrings Within a Pandas DataFrame Column?

使用多個子字串測試Pandas DataFrame 中子字串的存在

在pandas 中,結合df.isin() 和df [col].str。 contains() 檢查字串是否包含清單中的任何子字串可能很乏味。本文提供了使用正規表示式和 str.contains() 方法的替代解決方案。

為了說明這一點,請考慮包含 ['cat','hat','dog','fog','寵物']。若要尋找所有包含「og」或「at」(「pet」除外)的元素,可以使用以下程式碼:

searchfor = ['og', 'at']
jointed_regex = '|'.join(searchfor)
s[s.str.contains(jointed_regex)]
登入後複製

輸出將為:

0    cat
1    hat
2    dog
3    fog
dtype: object
登入後複製

透過「 |」連接子字串字符,str.contains() 方法可以有效地匹配字串元素中的任何子字串。

處理特殊字符

請注意,在處理包含特殊字符的子字符串時字符,例如$或^,需要使用re.escape()對其進行轉義。這確保了在匹配過程中按字面解釋字元。

例如,如果 searchfor 包含 ['money', 'x^y']:

import re
safe_searchfor = [re.escape(m) for m in searchfor]
s[s.str.contains('|'.join(safe_searchfor))]
登入後複製

此程式碼轉義特殊字元並確保子字串的準確匹配。

以上是如何有效地檢查 Pandas DataFrame 列中的多個子字串?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

來源:php.cn
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
作者最新文章
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板