Suppression du formatage Unicode xa0 en Python
Lors de l'analyse du HTML avec Beautiful Soup, vous pouvez rencontrer le caractère Unicode xa0 représentant des espaces. Supprimer ces caractères et les remplacer par des espaces réguliers nécessite une attention particulière à l'encodage et au décodage.
Dans Python 2.7, vous pouvez utiliser la commande string.replace(u'xa0', u' ') pour remplacer xa0 par des espaces. Cependant, cette approche convertit par erreur xa0 en caractères « u ».
La solution réside dans la compréhension que xa0 est un espace insécable en Latin1 (ISO 8859-1). Pour le supprimer, utilisez la commande suivante :
string = string.replace(u'\xa0', u' ')
Cependant, appeler encode('utf-8') sur la chaîne modifiée sans utiliser la commande replace() peut entraîner des caractères étranges comme xc2. En effet, encode() convertit les caractères Unicode en UTF-8, représentant xa0 comme une séquence de deux octets, xc2 et xa0.
Pour restaurer la chaîne à son état prévu, utilisez la commande suivante après le remplacement ( ) opération :
string = string.encode('utf-8')
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!