パンダでの文字列の部分文字列のテスト
パンダでは、文字列列に複数の部分文字列のいずれかが含まれているかどうかを判断する必要があるシナリオが発生する場合があります。 。これは isin() 関数と str.contains() 関数を使用して実現できますが、より効率的なアプローチが利用可能です。
部分文字列のリストのいずれかを含むすべての文字列を検索するには、正規表現パイプを利用できます。 str.contains() 内の文字 (|)。たとえば、系列 s = ['cat','hat','dog','fog','pet'] と目的の部分文字列 ['og', 'at'] がある場合、次のコードを実行できます。
import pandas as pd searchfor = ['og', 'at'] result = s[s.str.contains('|'.join(searchfor))]
この操作は、searchfor の部分文字列のいずれかに一致する s のすべての要素を含むシリーズを作成します。 pet.
正規表現で特定の意味を持つ特殊文字 ($ や ^ など) は、re.escape() を使用してエスケープする必要があることに注意することが重要です。これにより、照合中にそれらがリテラル文字として扱われることが保証されます。
以上がPandas シリーズで特定の部分文字列を含む文字列を効率的に検索するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。