Segmentation de chaîne en Python
En Python, vous pouvez utiliser la méthode str.split() pour diviser la chaîne en fonction du délimiteur Ou expression régulière pour la segmentation des mots. Par défaut, str.split() divisera la chaîne en fonction des caractères d'espacement (y compris les espaces, les tabulations et les nouvelles lignes).
Utiliser le délimiteur par défaut
Le code suivant montre comment diviser une chaîne en une liste de mots à l'aide du délimiteur par défaut :
text = "many fancy word \nhello \thi" words = text.split() print(words) # 输出:['many', 'fancy', 'word', 'hello', 'hi']
Dans ce Par exemple, le texte de la chaîne est divisé en la liste de mots suivante : ['many', 'fancy', 'word', 'hello', 'hi'].
Utiliser un délimiteur d'expression régulière
Vous pouvez également spécifier une expression régulière comme délimiteur. Cela vous permet de tokeniser des chaînes basées sur des modèles plus complexes.
Le code suivant montre comment utiliser des expressions régulières pour diviser une chaîne en une liste de mots, où les caractères d'espacement ou plusieurs espaces consécutifs sont considérés comme des délimiteurs :
import re text = "many fancy word \nhello \thi" white_space_regex = r"\s+" words = re.split(white_space_regex, text) print(words) # 输出:['many', 'fancy', 'word', 'hello', 'hi']
Ici, dans ce cas, l'expression régulière r"s" correspond à un ou plusieurs caractères d'espacement, elle divise donc la chaîne en une liste de mots, dont chacun a au moins un caractère d'espacement entre eux.
Notes
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!