複数の単語境界区切り文字を使用して文字列を単語に分割する
Python では、str.split() を使用して文字列を単語に分割するときに、区切り文字は 1 つだけ指定できます。これは、空白だけでなく句読点も単語の境界として考慮したい場合に問題となる可能性があります。
解決策: re.split() を使用する
この問題に対処するには、次のことを検討してください。代わりに re.split() 関数を使用します。 re.split() を使用すると、複数の単語境界区切り文字を含めることができるパターンを引数として指定できます。
パターンは次の構文を使用して構築できます:
\W+ # Match any sequence of non-word characters | # Or \s+ # Match any sequence of whitespace characters
分割するには指定されたサンプル文字列を句読点を含む単語に変換するには、次のコードを使用できます。
>>> import re >>> re.split(r"\W+|\s+", "Hey, you - what are you doing here!?") ['hey', 'you', 'what', 'are', 'you', 'doing', 'here']
上記の正規表現は、任意のシーケンスに一致します。
このメソッドは、さまざまな区切り文字に基づいて文字列を分割する柔軟でカスタマイズ可能な方法を提供し、関連するすべての単語が確実にキャプチャされるようにします。
以上がPython で複数の区切り文字を使用して文字列を単語に分割するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。