Python で XML/HTML エンティティを Unicode に変換
課題:
Web スクレイピング, HTML エンティティは、非 ASCII 文字を表すためによく使用されます。 Python には、これらのエンティティを含む文字列を Unicode 型に変換できるユーティリティが必要です。
解決策:
Python 標準ライブラリの HTMLParser には、文書化されていない関数 unescape() があります。これにより、この要件を効果的に満たすことができます。
実装:
Python 3.4 以前の場合:
<code class="python">import HTMLParser h = HTMLParser.HTMLParser() result = h.unescape('&copy; 2010') # u'\xa9 2010'</code>
Python 3.4 以降の場合:
<code class="python">import html result = html.unescape('&copy; 2010') # u'\xa9 2010'</code>
例:
HTML エンティティ ǎ を考えてみましょう。 」とバイナリで声調記号が付きます。 unescape() を使用すると、Unicode 値 u'u01ce':
<code class="python">result = h.unescape('&#x01ce;') # u'\u01ce'</code>
以上がPython で XML/HTML エンティティを Unicode に変換するには?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。