Heim > Backend-Entwicklung > Python-Tutorial > Wie konvertiert man HTML-Entitäten in Python in Unicode-Strings?

Wie konvertiert man HTML-Entitäten in Python in Unicode-Strings?

Mary-Kate Olsen
Freigeben: 2024-11-05 05:21:02
Original
527 Leute haben es durchsucht

How to convert HTML entities to Unicode strings in Python?

XML/HTML-Entitäten in einen Unicode-String in Python konvertieren

Frage: Wie kann ich einen String, der HTML-Entitäten enthält, in einen Unicode-String konvertieren? Python? Beispielsweise ist die Zeichenfolge „ǎ“ sollte in „ǎ“ mit einer Tonmarkierung (u'u01ce') konvertiert werden.

Antwort:

Der HTMLParser der Python-Standardbibliothek verfügt über eine undokumentierte Funktion namens unescape(). Diese Funktion kann HTML-Entitäten in ihre Unicode-Äquivalente konvertieren.

<code class="python">import HTMLParser
h = HTMLParser.HTMLParser()
h.unescape('&amp;copy; 2010') # u'\xa9 2010'
h.unescape('&amp;#169; 2010') # u'\xa9 2010'</code>
Nach dem Login kopieren

Für Python 3.4 und höher funktioniert der folgende Code mit dem HTML-Modul:

<code class="python">import html
html.unescape('&amp;copy; 2010') # u'\xa9 2010'
html.unescape('&amp;#169; 2010') # u'\xa9 2010'</code>
Nach dem Login kopieren

Das obige ist der detaillierte Inhalt vonWie konvertiert man HTML-Entitäten in Python in Unicode-Strings?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Neueste Artikel des Autors
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage