使用多個子字串測試Pandas DataFrame 中子字串的存在
在pandas 中,結合df.isin() 和df [col].str。 contains() 檢查字串是否包含清單中的任何子字串可能很乏味。本文提供了使用正規表示式和 str.contains() 方法的替代解決方案。
為了說明這一點,請考慮包含 ['cat','hat','dog','fog','寵物']。若要尋找所有包含「og」或「at」(「pet」除外)的元素,可以使用以下程式碼:
searchfor = ['og', 'at'] jointed_regex = '|'.join(searchfor) s[s.str.contains(jointed_regex)]
輸出將為:
0 cat 1 hat 2 dog 3 fog dtype: object
透過「 |」連接子字串字符,str.contains() 方法可以有效地匹配字串元素中的任何子字串。
處理特殊字符
請注意,在處理包含特殊字符的子字符串時字符,例如$或^,需要使用re.escape()對其進行轉義。這確保了在匹配過程中按字面解釋字元。
例如,如果 searchfor 包含 ['money', 'x^y']:
import re safe_searchfor = [re.escape(m) for m in searchfor] s[s.str.contains('|'.join(safe_searchfor))]
此程式碼轉義特殊字元並確保子字串的準確匹配。
以上是如何有效地檢查 Pandas DataFrame 列中的多個子字串?的詳細內容。更多資訊請關注PHP中文網其他相關文章!