Rumah > pembangunan bahagian belakang > Tutorial Python > Bagaimana untuk Menukar Entiti XML/HTML kepada Unicode dalam Python?

Bagaimana untuk Menukar Entiti XML/HTML kepada Unicode dalam Python?

Barbara Streisand
Lepaskan: 2024-11-04 00:06:30
asal
519 orang telah melayarinya

How to Convert XML/HTML Entities to Unicode in Python?

Menukar Entiti XML/HTML kepada Unikod dalam Python

Cabaran:

Dalam mengikis web , entiti HTML biasanya digunakan untuk mewakili aksara bukan ASCII. Python memerlukan utiliti yang boleh menukar rentetan dengan entiti ini kepada jenis Unicode.

Penyelesaian:

HTMLParser perpustakaan standard Python mempunyai fungsi tidak didokumenkan, unescape() , yang boleh memenuhi keperluan ini dengan berkesan.

Pelaksanaan:

Untuk Python 3.4 dan lebih awal:

<code class="python">import HTMLParser

h = HTMLParser.HTMLParser()
result = h.unescape('&amp;copy; 2010')  # u'\xa9 2010'</code>
Salin selepas log masuk

Untuk Python 3.4 dan lebih baharu:

<code class="python">import html

result = html.unescape('&amp;copy; 2010')  # u'\xa9 2010'</code>
Salin selepas log masuk

Contoh:

Pertimbangkan entiti HTML ǎ, yang sepadan dengan "ǎ " dengan tanda nada dalam binari. Menggunakan unescape(), anda boleh menukarnya kepada nilai Unicode u'u01ce':

<code class="python">result = h.unescape('&amp;#x01ce;')  # u'\u01ce'</code>
Salin selepas log masuk

Atas ialah kandungan terperinci Bagaimana untuk Menukar Entiti XML/HTML kepada Unicode dalam Python?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Artikel terbaru oleh pengarang
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan