首页 > 后端开发 > Python教程 > 如何在 Python 中将 HTML 实体转换为 Unicode 字符串?

如何在 Python 中将 HTML 实体转换为 Unicode 字符串?

Mary-Kate Olsen
发布: 2024-11-05 05:21:02
原创
491 人浏览过

How to convert HTML entities to Unicode strings in Python?

在 Python 中将 XML/HTML 实体转换为 Unicode 字符串

问题:如何将包含 HTML 实体的字符串转换为 Unicode 字符串Python?例如,字符串“ǎ”应转换为带有声调标记 (u'u01ce') 的“ǎ”。

答案:

Python 标准库的 HTMLParser 有一个未公开的函数,称为 unescape()。此函数可以将 HTML 实体转换为其 Unicode 等效项。

<code class="python">import HTMLParser
h = HTMLParser.HTMLParser()
h.unescape('&amp;copy; 2010') # u'\xa9 2010'
h.unescape('&amp;#169; 2010') # u'\xa9 2010'</code>
登录后复制

对于 Python 3.4 及更高版本,以下代码将使用 html 模块:

<code class="python">import html
html.unescape('&amp;copy; 2010') # u'\xa9 2010'
html.unescape('&amp;#169; 2010') # u'\xa9 2010'</code>
登录后复制

以上是如何在 Python 中将 HTML 实体转换为 Unicode 字符串?的详细内容。更多信息请关注PHP中文网其他相关文章!

来源:php.cn
本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
作者最新文章
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板