初学python,在使用scray 爬虫时,遇到html的特殊字符,于是百度搜看了下文档:
import HTMLParser
html_parser = HTMLParser.HTMLParser()
s = '&l t;abc&g t;&nbs p;' #避免网页转义留了个空格
s = html_parser.unescape(s)
运行时提示:
import markupbase
ImportError: No module named 'markupbase'
借助翻译软件,看HTMLParser官方文档找了第二种方法
from html.parser import HTMLParser
class MyHTMLParser(HTMLParser):
def handle_data(self, data):
print(data)
return data
parser = MyHTMLParser()
s = '&l t;abc&g t;&nbs p;' #避免网页转义留了个空格
ss=parser.feed(s)
第二种方法测试成功,遇到的问题是,return data 这一句,返回数据是无效的?
请问,有没有就几句代码解决转义的,如果没有第二种方法里如何才有返回值?
雷雷