初學python,在使用scray 爬蟲時,遇到html的特殊字符,於是百度搜看了下文檔:
import HTMLParser
html_parser = HTMLParser.HTMLParser()
s = '&l t;abc&g t;&nbs p;' #避免網頁轉義留了個空格
s = html_parser.unescape(s )
執行階段提示:
import markupbase
ImportError: No module named 'markupbase'
借助翻譯軟體,看HTMLParser官方文件找了第二種方法
from html.parser import HTMLParser
class MyHTMLParser(HTMLParser):
def handle_data(self, data):
print(data)
return data
parser = MyHTMLParser()
s = '&l t;abc&g t;&nbs p;' #避免網頁轉義留了個空格
ss=parser.feed(s)
第二種方法測試成功,遇到的問題是,return data 這一句,回傳資料是無效的?
請問,有沒有就幾句程式碼解決轉義的,如果沒有第二種方法裡如何才有回傳值?
雷雷