Konvertieren von XML/HTML-Entitäten in Unicode in Python
Herausforderung:
Im Web Scraping , HTML-Entitäten werden häufig zur Darstellung von Nicht-ASCII-Zeichen verwendet. Python benötigt ein Dienstprogramm, das einen String mit diesen Entitäten in einen Unicode-Typ konvertieren kann.
Lösung:
Der HTMLParser der Python-Standardbibliothek verfügt über eine undokumentierte Funktion, unescape() , das diese Anforderung effektiv erfüllen kann.
Implementierung:
Für Python 3.4 und früher:
<code class="python">import HTMLParser h = HTMLParser.HTMLParser() result = h.unescape('&copy; 2010') # u'\xa9 2010'</code>
Für Python 3.4 und höher:
<code class="python">import html result = html.unescape('&copy; 2010') # u'\xa9 2010'</code>
Beispiel:
Betrachten Sie die HTML-Entität ǎ, die einem „ǎ“ entspricht " mit einer Tonmarkierung im Binärformat. Mit unescape() können Sie es in den Unicode-Wert u'u01ce':
<code class="python">result = h.unescape('&#x01ce;') # u'\u01ce'</code>
Das obige ist der detaillierte Inhalt vonWie konvertiert man XML/HTML-Entitäten in Python in Unicode?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!