python - pythoh3 下 '<abc>' 遇到這樣的html轉義符如何自動轉義呢?
typecho
typecho 2017-06-12 09:27:01
0
1
1043

初學python,在使用scray 爬蟲時,遇到html的特殊字符,於是百度搜看了下文檔:

import HTMLParser
html_parser = HTMLParser.HTMLParser()
s = '&l t;abc&g t;&nbs p;' #避免網頁轉義留了個空格
s = html_parser.unescape(s )

執行階段提示:
import markupbase
ImportError: No module named 'markupbase'


借助翻譯軟體,看HTMLParser官方文件找了第二種方法

from html.parser import HTMLParser

class MyHTMLParser(HTMLParser):

def handle_data(self, data):
    print(data)
    return data

parser = MyHTMLParser()
s = '&l t;abc&g t;&nbs p;' #避免網頁轉義留了個空格
ss=parser.feed(s)

第二種方法測試成功,遇到的問題是,return data 這一句,回傳資料是無效的?


請問,有沒有就幾句程式碼解決轉義的,如果沒有第二種方法裡如何才有回傳值?

typecho
typecho

Following the voice in heart.

全部回覆(1)
某草草

雷雷

熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板