在 Python 中将 XML/HTML 实体转换为 Unicode
挑战:
在网页抓取中, HTML 实体通常用于表示非 ASCII 字符。 Python 需要一个实用程序,可以将包含这些实体的字符串转换为 Unicode 类型。
解决方案:
Python 标准库的 HTMLParser 拥有一个未记录的函数 unescape() ,可以有效满足这个需求。
实现:
对于 Python 3.4 及更早版本:
<code class="python">import HTMLParser h = HTMLParser.HTMLParser() result = h.unescape('&copy; 2010') # u'\xa9 2010'</code>
对于 Python 3.4 及更高版本:
<code class="python">import html result = html.unescape('&copy; 2010') # u'\xa9 2010'</code>
示例:
考虑 HTML 实体 ǎ,它对应于“ǎ” " 带有二进制声调标记。使用 unescape(),您可以将其转换为 Unicode 值 u'u01ce':
<code class="python">result = h.unescape('&#x01ce;') # u'\u01ce'</code>
以上是如何在 Python 中将 XML/HTML 实体转换为 Unicode?的详细内容。更多信息请关注PHP中文网其他相关文章!