Diviser des chaînes en mots avec plusieurs délimiteurs de limites de mots
En Python, lorsque vous divisez une chaîne en mots à l'aide de str.split(), vous ne peut spécifier qu’un seul délimiteur. Cela peut être problématique si vous souhaitez considérer la ponctuation ainsi que les espaces comme limites de mots.
Solution : Utiliser re.split()
Pour résoudre ce problème, considérez en utilisant plutôt la fonction re.split(). re.split() vous permet de spécifier un modèle comme argument, qui peut inclure plusieurs délimiteurs de limites de mots.
Le modèle peut être construit en utilisant la syntaxe suivante :
\W+ # Match any sequence of non-word characters | # Or \s+ # Match any sequence of whitespace characters
Pour diviser l'exemple de chaîne donné en mots, y compris la ponctuation, vous pouvez utiliser le code suivant :
>>> import re >>> re.split(r"\W+|\s+", "Hey, you - what are you doing here!?") ['hey', 'you', 'what', 'are', 'you', 'doing', 'here']
L'expression régulière ci-dessus correspond à toute séquence de caractères autres que des mots ou de caractères d'espacement, divisant ainsi efficacement la chaîne en mots.
Cette méthode fournit un moyen flexible et personnalisable de diviser les chaînes en fonction de divers délimiteurs, garantissant que tous les mots pertinents sont capturés.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!