Python で XML/HTML エンティティを Unicode に変換するには?

Barbara Streisand
リリース: 2024-11-04 00:06:30
オリジナル
372 人が閲覧しました

How to Convert XML/HTML Entities to Unicode in Python?

Python で XML/HTML エンティティを Unicode に変換

課題:

Web スクレイピング, HTML エンティティは、非 ASCII 文字を表すためによく使用されます。 Python には、これらのエンティティを含む文字列を Unicode 型に変換できるユーティリティが必要です。

解決策:

Python 標準ライブラリの HTMLParser には、文書化されていない関数 unescape() があります。これにより、この要件を効果的に満たすことができます。

実装:

Python 3.4 以前の場合:

<code class="python">import HTMLParser

h = HTMLParser.HTMLParser()
result = h.unescape('&amp;copy; 2010')  # u'\xa9 2010'</code>
ログイン後にコピー

Python 3.4 以降の場合:

<code class="python">import html

result = html.unescape('&amp;copy; 2010')  # u'\xa9 2010'</code>
ログイン後にコピー

例:

HTML エンティティ ǎ を考えてみましょう。 」とバイナリで声調記号が付きます。 unescape() を使用すると、Unicode 値 u'u01ce':

<code class="python">result = h.unescape('&amp;#x01ce;')  # u'\u01ce'</code>
ログイン後にコピー
に変換できます。

以上がPython で XML/HTML エンティティを Unicode に変換するには?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
著者別の最新記事
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート
私たちについて 免責事項 Sitemap
PHP中国語ウェブサイト:福祉オンライン PHP トレーニング,PHP 学習者の迅速な成長を支援します!