Suppression des espaces insécables des chaînes en Python
Lors de l'analyse de fichiers HTML à l'aide de Beautiful Soup, vous pouvez rencontrer des caractères Unicode xa0 représentant des espaces. Cet article explique comment supprimer efficacement ces caractères dans Python 2.7 et les convertir en espaces réguliers.
Pour résoudre ce problème, remplacez simplement xa0 par u' ' comme suit :
<code class="python">string = string.replace(u'\xa0', u' ')</code>
Le Le caractère xa0 représente un espace insécable en codage Latin1 (ISO 8859-1). En utilisant u' ' au lieu de '', vous vous assurez qu'il est remplacé par un espace Unicode.
Lorsque vous rencontrez des caractères xc2 après avoir utilisé .encode(), cela indique que l'Unicode a été codé en UTF-8. xa0 est représenté par les deux octets xc2xa0 en UTF-8.
Pour comprendre la gestion Unicode en Python, reportez-vous à la documentation sur http://docs.python.org/howto/unicode.html. Notez que cette réponse remonte à 2012 ; Python a évolué et vous devriez maintenant envisager d'utiliser unicodedata.normalize pour la normalisation Unicode.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!