Maison > développement back-end > Tutoriel Python > Comment convertir des entités XML/HTML en Unicode en Python ?

Comment convertir des entités XML/HTML en Unicode en Python ?

Barbara Streisand
Libérer: 2024-11-04 00:06:30
original
520 Les gens l'ont consulté

How to Convert XML/HTML Entities to Unicode in Python?

Conversion d'entités XML/HTML en Unicode en Python

Défi :

Dans le web scraping , les entités HTML sont couramment utilisées pour représenter des caractères non-ASCII. Python a besoin d'un utilitaire capable de convertir une chaîne avec ces entités en un type Unicode.

Solution :

Le HTMLParser de la bibliothèque standard Python possède une fonction non documentée, unescape() , qui peut répondre efficacement à cette exigence.

Mise en œuvre :

Pour Python 3.4 et versions antérieures :

<code class="python">import HTMLParser

h = HTMLParser.HTMLParser()
result = h.unescape('&amp;copy; 2010')  # u'\xa9 2010'</code>
Copier après la connexion

Pour Python 3.4 et versions ultérieures :

<code class="python">import html

result = html.unescape('&amp;copy; 2010')  # u'\xa9 2010'</code>
Copier après la connexion

Exemple :

Considérons l'entité HTML ǎ, qui correspond à un "ǎ " avec une marque de ton en binaire. En utilisant unescape(), vous pouvez le convertir en valeur Unicode u'u01ce' :

<code class="python">result = h.unescape('&amp;#x01ce;')  # u'\u01ce'</code>
Copier après la connexion

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Derniers articles par auteur
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal