Comment convertir des entités XML/HTML en chaînes Unicode en Python ?-Tutoriel Python-php.cn

Comment convertir des entités XML/HTML en chaînes Unicode en Python ?

Susan Sarandon

Libérer： 2024-11-04 06:36:02

original

639 Les gens l'ont consulté

How to Convert XML/HTML Entities to Unicode Strings in Python?

Conversion d'entités XML/HTML en chaînes Unicode en Python

Dans le web scraping, les entités sont fréquemment utilisées pour représenter des caractères non-ASCII. Pour décoder ces entités en Python et obtenir la représentation Unicode correspondante, vous pouvez utiliser la fonction unescape() disponible dans le module HTMLParser de la bibliothèque standard.

Exemple :

Supposons vous avez l'entité suivante :

&amp;#x01ce;

Copier après la connexion

qui représente un "ǎ" avec une marque de ton. L'équivalent binaire de ceci est 01ce (16 bits). Pour convertir cette entité en valeur Unicode u'u01ce' :

Python 3.4 et versions antérieures :

import HTMLParser
h = HTMLParser.HTMLParser()
unicode_string = h.unescape('&amp;copy; 2010') # u'\xa9 2010'
unicode_string = h.unescape('&amp;#169; 2010') # u'\xa9 2010'

Copier après la connexion

Python 3.4 et versions ultérieures :

import html
unicode_string = html.unescape('&amp;copy; 2010') # u'\xa9 2010'
unicode_string = html.unescape('&amp;#169; 2010') # u'\xa9 2010'

Copier après la connexion

La chaîne unicode_string résultante contient la représentation Unicode souhaitée de la chaîne avec les entités remplacées par leurs valeurs Unicode réelles.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!