python - Bagaimana untuk melarikan diri secara automatik '<abc>' apabila menemui aksara melarikan diri html sedemikian di bawah python3?
typecho
typecho 2017-06-12 09:27:01
0
1
1014

Saya baru mengenali python Apabila menggunakan perangkak scray, saya menemui watak istimewa html, jadi saya mencari dokumentasi di Baidu:

import HTMLParser
html_parser = HTMLParser.HTMLParser()
s = '&l t;abc&g t;&nbs p;' #Ruang ditinggalkan untuk mengelakkan halaman web terlepas
s = html_parser.unescape(s)

Gesaan masa:
import markupbase
ImportError: Tiada modul bernama 'markupbase'


Dengan bantuan perisian terjemahan, saya menemui kaedah kedua dengan membaca dokumentasi HTMLParser rasmi

daripada html.parser import HTMLParser

kelas MyHTMLParser(HTMLParser):

def handle_data(self, data):
    print(data)
    return data

parser = MyHTMLParser()
s = '&l t;abc&g t;&nbs p;' #Tinggalkan ruang untuk mengelakkan halaman web terlepas
ss=parser.feed(s)

Kaedah kedua berjaya diuji, tetapi masalah yang dihadapi ialah ayat data pulangan tidak sah?


Maafkan saya, adakah terdapat sebarang penyelesaian untuk melarikan diri dengan hanya beberapa baris kod Jika tiada kaedah kedua, bagaimana saya boleh mendapatkan nilai pulangan?

typecho
typecho

Following the voice in heart.

membalas semua(1)
某草草
from html.parser import HTMLParser
html_parser = HTMLParser()
s = '<abc>&nbsp;'
txt = html_parser.unescape(s)
print(txt)
# 结果:<abc>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan