Tukar Entiti XML/HTML ke dalam Rentetan Unikod dalam Python
Soalan: Bagaimana saya boleh menukar rentetan yang mengandungi entiti HTML kepada rentetan Unikod dalam Ular sawa? Contohnya, rentetan "ǎ" hendaklah ditukar kepada "ǎ" dengan tanda nada (u'u01ce').
Jawapan:
HTMLParser perpustakaan standard Python mempunyai fungsi tidak berdokumen dipanggil unescape(). Fungsi ini boleh menukar entiti HTML kepada setara Unicode mereka.
<code class="python">import HTMLParser h = HTMLParser.HTMLParser() h.unescape('&copy; 2010') # u'\xa9 2010' h.unescape('&#169; 2010') # u'\xa9 2010'</code>
Untuk Python 3.4 dan ke atas, kod berikut akan berfungsi menggunakan modul html:
<code class="python">import html html.unescape('&copy; 2010') # u'\xa9 2010' html.unescape('&#169; 2010') # u'\xa9 2010'</code>
Atas ialah kandungan terperinci Bagaimana untuk menukar entiti HTML ke rentetan Unicode dalam Python?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!