テキスト データを扱うときの一般的なタスクには、文字列を個々の単語に分割することが含まれます。 Python の str.split() メソッドは簡単な解決策を提供しますが、引数としてサポートされるのは 1 つの区切り文字のみです。この制限は、句読点など、複数の種類の単語の境界を含むテキストを扱うときに障害になる可能性があります。
Python の re モジュールには、強力な代替手段 re.split() が用意されています。この機能を使用すると、単語の境界区切り文字として使用するパターンを指定できます。パターンには、複数の種類の境界を同時に照合するための正規表現を含めることができます。
たとえば、空白と句読点の両方を単語の境界として処理して、次の文字列を単語に分割するには:
"Hey, you - what are you doing here!?"
次の正規表現パターンを使用できます。
'\W+'
このパターンは、単語以外の文字 (英字、数字、または文字) の任意のシーケンスと一致します。アンダースコア)。 re.split() と一緒に使用すると、これらの文字が出現するすべての箇所で文字列が分割され、単語のリストが効果的に作成されます。
Python での使用方法は次のとおりです:
import re text = "Hey, you - what are you doing here!?" words = re.split('\W+', text) print(words)
出力:
['Hey', 'you', 'what', 'are', 'you', 'doing', 'here']
ご覧のとおり、re.split() は文字列を効果的に個々の単語に分割し、文字列を保持します。複数の区切り文字が存在する場合でも、単語の境界を修正します。この柔軟性により、複数の単語境界区切り文字が発生する複雑なテキスト解析シナリオを処理するための貴重なツールとなります。
以上がPython で複数の単語境界区切り文字を使用して文字列を単語に分割するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。