如何在 Python 中將 XML/HTML 實體轉換為 Unicode?

Barbara Streisand
發布: 2024-11-04 00:06:30
原創
370 人瀏覽過

How to Convert XML/HTML Entities to Unicode in Python?

在Python 中將XML/HTML 實體轉換為Unicode

挑戰:

挑戰:

挑戰:

挑戰:

挑戰:

<code class="python">import HTMLParser

h = HTMLParser.HTMLParser()
result = h.unescape('&amp;copy; 2010')  # u'\xa9 2010'</code>
登入後複製

在:

<code class="python">import html

result = html.unescape('&amp;copy; 2010')  # u'\xa9 2010'</code>
登入後複製
挑戰網頁抓取中, HTML 實體通常用於表示非ASCII 字元。 Python 需要一個實用程序,可以將包含這些實體的字串轉換為 Unicode 類型。

解:

Python 標準函式庫的 HTMLParser 擁有一個未記錄的函數 unescape() ,可以有效滿足這個需求。
<code class="python">result = h.unescape('&amp;#x01ce;')  # u'\u01ce'</code>
登入後複製
實作:對於Python 3.4 及更早版本:範例:考慮HTML 實體ǎ,它對應於「ǎ」 " 帶有二進位聲調標記。

以上是如何在 Python 中將 XML/HTML 實體轉換為 Unicode?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

來源:php.cn
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
作者最新文章
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板
關於我們 免責聲明 Sitemap
PHP中文網:公益線上PHP培訓,幫助PHP學習者快速成長!