Conversion d'entités XML/HTML en chaînes Unicode en Python
Dans le web scraping, les entités sont fréquemment utilisées pour représenter des caractères non-ASCII. Pour décoder ces entités en Python et obtenir la représentation Unicode correspondante, vous pouvez utiliser la fonction unescape() disponible dans le module HTMLParser de la bibliothèque standard.
Exemple :
Supposons vous avez l'entité suivante :
ǎ
qui représente un "ǎ" avec une marque de ton. L'équivalent binaire de ceci est 01ce (16 bits). Pour convertir cette entité en valeur Unicode u'u01ce' :
Python 3.4 et versions antérieures :
import HTMLParser h = HTMLParser.HTMLParser() unicode_string = h.unescape('© 2010') # u'\xa9 2010' unicode_string = h.unescape('© 2010') # u'\xa9 2010'
Python 3.4 et versions ultérieures :
import html unicode_string = html.unescape('© 2010') # u'\xa9 2010' unicode_string = html.unescape('© 2010') # u'\xa9 2010'
La chaîne unicode_string résultante contient la représentation Unicode souhaitée de la chaîne avec les entités remplacées par leurs valeurs Unicode réelles.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!