Segmentasi rentetan dalam Python
Dalam Python, anda boleh menggunakan kaedah str.split() untuk memisahkan rentetan mengikut pembatas Atau ungkapan biasa untuk pembahagian perkataan. Secara lalai, str.split() akan memisahkan rentetan mengikut aksara ruang putih (termasuk ruang, tab dan baris baharu).
Gunakan pembatas lalai
Kod berikut menunjukkan cara membahagikan rentetan kepada senarai perkataan menggunakan pembatas lalai:
text = "many fancy word \nhello \thi" words = text.split() print(words) # 输出:['many', 'fancy', 'word', 'hello', 'hi']
Dalam ini contoh, teks rentetan dibahagikan kepada senarai perkataan berikut: ['ramai', 'fancy', 'word', 'hello', 'hai'].
Gunakan pembatas ungkapan biasa
Anda juga boleh menentukan ungkapan biasa sebagai pembatas. Ini membolehkan anda untuk tokenize rentetan berdasarkan corak yang lebih kompleks.
Kod berikut menunjukkan cara menggunakan ungkapan biasa untuk memisahkan rentetan kepada senarai perkataan, dengan aksara ruang putih atau berbilang ruang berturut-turut dianggap sebagai pembatas:
import re text = "many fancy word \nhello \thi" white_space_regex = r"\s+" words = re.split(white_space_regex, text) print(words) # 输出:['many', 'fancy', 'word', 'hello', 'hi']
Di sini Dalam kes ini, ungkapan biasa r"s" sepadan dengan satu atau lebih aksara ruang putih, jadi ia memisahkan rentetan kepada senarai perkataan, setiap satunya mempunyai sekurang-kurangnya satu aksara ruang putih di antara mereka.
Nota
Atas ialah kandungan terperinci Bagaimanakah saya membahagikan rentetan kepada perkataan menggunakan Python?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!