首頁 > 後端開發 > Python教學 > 如何在 Python 中將 HTML 實體轉換為 Unicode 字串?

如何在 Python 中將 HTML 實體轉換為 Unicode 字串?

Mary-Kate Olsen
發布: 2024-11-05 05:21:02
原創
492 人瀏覽過

How to convert HTML entities to Unicode strings in Python?

在Python 中將XML/HTML 實體轉換為Unicode 字串

問題:如何將包含HTML 實體的字串轉換為Unicode字串Python?例如,字串「ǎ」應轉換為帶有聲調標記 (u'u01ce') 的「ǎ」。

答案:

Python 標準函式庫的 HTMLParser 有一個未公開的函數,稱為 unescape()。此函數可以將 HTML 實體轉換為其 Unicode 等效項。

<code class="python">import HTMLParser
h = HTMLParser.HTMLParser()
h.unescape('&amp;copy; 2010') # u'\xa9 2010'
h.unescape('&amp;#169; 2010') # u'\xa9 2010'</code>
登入後複製

對於 Python 3.4 及更高版本,以下程式碼將使用 html 模組:

<code class="python">import html
html.unescape('&amp;copy; 2010') # u'\xa9 2010'
html.unescape('&amp;#169; 2010') # u'\xa9 2010'</code>
登入後複製

以上是如何在 Python 中將 HTML 實體轉換為 Unicode 字串?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

來源:php.cn
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
作者最新文章
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板