首頁 > 後端開發 > Python教學 > 如何在 Python 中解碼 HTML 實體?

如何在 Python 中解碼 HTML 實體?

DDD
發布: 2024-12-16 05:20:13
原創
370 人瀏覽過

How to Decode HTML Entities in Python?

在 Python 中解碼 HTML 實體:綜合參考

使用 BeautifulSoup 解析 HTML 內容時,可能會遇到 HTML 實體保持編碼狀態的問題。要解碼這些實體並取得實際文字內容,可以根據所使用的 Python 版本採用各種方法。

Python 3.4

在Python 3.4 及更高版本中,html.unescape()函數提供了一種解碼HTML 實體的簡單方法:

import html
print(html.unescape('£682m'))
登入後複製

這將返回所需的輸出: “£682m”。

Python 2.6-3.3

對於2.6 和3.3 之間的Python 版本,HTMLParser.unescape() 方法被證明是有用的:

try:
    # Python 2.6-2.7
    from HTMLParser import HTMLParser
except ImportError:
    # Python 3
    from html.parser import HTMLParser

h = HTMLParser()
print(h.unescape('£682m'))
登入後複製

或者,六個相容庫可以簡化模組導入,從而實現跨Python 使用HTMLParser版本:

from six.moves.html_parser import HTMLParser
h = HTMLParser()
print(h.unescape('£682m'))
登入後複製

透過利用這些 Python 工具,開發人員可以有效率地解碼 HTML 實體並取得滿足其解析需求的所需文字內容。

以上是如何在 Python 中解碼 HTML 實體?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

來源:php.cn
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板