String-Segmentierung in Python
In Python können Sie die Methode str.split() verwenden, um die Zeichenfolge entsprechend dem Trennzeichen aufzuteilen regulärer Ausdruck für die Wortsegmentierung. Standardmäßig teilt str.split() die Zeichenfolge nach Leerzeichen (einschließlich Leerzeichen, Tabulatoren und Zeilenumbrüche) auf.
Standardtrennzeichen verwenden
Der folgende Code zeigt, wie eine Zeichenfolge mithilfe des Standardtrennzeichens in eine Liste von Wörtern aufgeteilt wird:
text = "many fancy word \nhello \thi" words = text.split() print(words) # 输出:['many', 'fancy', 'word', 'hello', 'hi']
Hier Beispielsweise wird der Zeichenfolgentext in die folgende Wortliste aufgeteilt: ['many', 'fancy', 'word', 'hello', 'hi'].
Begrenzer für reguläre Ausdrücke verwenden
Sie können auch einen regulären Ausdruck als Trennzeichen angeben. Dadurch können Sie Zeichenfolgen basierend auf komplexeren Mustern tokenisieren.
Der folgende Code zeigt, wie reguläre Ausdrücke verwendet werden, um eine Zeichenfolge in eine Liste von Wörtern aufzuteilen, wobei Leerzeichen oder mehrere aufeinanderfolgende Leerzeichen als Trennzeichen gelten:
import re text = "many fancy word \nhello \thi" white_space_regex = r"\s+" words = re.split(white_space_regex, text) print(words) # 输出:['many', 'fancy', 'word', 'hello', 'hi']
Hier In diesem Fall Der reguläre Ausdruck r"s" stimmt mit einem oder mehreren Leerzeichen überein und teilt die Zeichenfolge daher in eine Liste von Wörtern auf, zwischen denen sich jeweils mindestens ein Leerzeichen befindet.
Notizen
Das obige ist der detaillierte Inhalt vonWie teile ich mit Python eine Zeichenfolge in Wörter auf?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!