Menukar Entiti XML/HTML kepada Unikod dalam Python
Cabaran:
Dalam mengikis web , entiti HTML biasanya digunakan untuk mewakili aksara bukan ASCII. Python memerlukan utiliti yang boleh menukar rentetan dengan entiti ini kepada jenis Unicode.
Penyelesaian:
HTMLParser perpustakaan standard Python mempunyai fungsi tidak didokumenkan, unescape() , yang boleh memenuhi keperluan ini dengan berkesan.
Pelaksanaan:
Untuk Python 3.4 dan lebih awal:
<code class="python">import HTMLParser h = HTMLParser.HTMLParser() result = h.unescape('&copy; 2010') # u'\xa9 2010'</code>
Untuk Python 3.4 dan lebih baharu:
<code class="python">import html result = html.unescape('&copy; 2010') # u'\xa9 2010'</code>
Contoh:
Pertimbangkan entiti HTML ǎ, yang sepadan dengan "ǎ " dengan tanda nada dalam binari. Menggunakan unescape(), anda boleh menukarnya kepada nilai Unicode u'u01ce':
<code class="python">result = h.unescape('&#x01ce;') # u'\u01ce'</code>
Atas ialah kandungan terperinci Bagaimana untuk Menukar Entiti XML/HTML kepada Unicode dalam Python?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!