Python での文字列のセグメント化
Python では、str.split() メソッドを使用して区切り文字に従って文字列を分割できます。単語を分割するための正規表現。デフォルトでは、str.split() は空白文字 (スペース、タブ、改行を含む) に従って文字列を分割します。
デフォルトの区切り文字を使用する
次のコードは、デフォルトの区切り文字を使用して文字列を単語のリストに分割する方法を示しています。たとえば、文字列テキストは次の単語リストに分割されます: ['many', 'fancy', 'word', 'hello', 'hi']。
text = "many fancy word \nhello \thi" words = text.split() print(words) # 输出:['many', 'fancy', 'word', 'hello', 'hi']
正規表現区切り文字を使用する
区切り文字として正規表現を指定することもできます。これにより、より複雑なパターンに基づいて文字列をトークン化できます。
次のコードは、正規表現を使用して文字列を単語のリストに分割する方法を示しています。空白文字または複数の連続するスペースは区切り文字とみなされます。この場合、正規表現 r"s" は 1 つ以上の空白文字と一致するため、文字列を単語のリストに分割し、各単語の間に少なくとも 1 つの空白文字が含まれます。
import re text = "many fancy word \nhello \thi" white_space_regex = r"\s+" words = re.split(white_space_regex, text) print(words) # 输出:['many', 'fancy', 'word', 'hello', 'hi']
Notes
str.split() はタプルではなく文字列のリストを返します。
以上がPython を使用して文字列を単語に分割するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。