python - pythoh3 下 '<abc>' 遇到这样的html转义符如何自动转义呢？-PHP中文网问答

社区

学习

工具库

AI工具

休闲

简体中文

python - pythoh3 下 '<abc>' 遇到这样的html转义符如何自动转义呢？

typecho 2017-06-12 09:27:01

1142

初学python，在使用scray 爬虫时，遇到html的特殊字符，于是百度搜看了下文档：

import HTMLParser
html_parser = HTMLParser.HTMLParser()
s = '&l t;abc&g t;&nbs p;' #避免网页转义留了个空格
s = html_parser.unescape(s)

运行时提示：
import markupbase
ImportError: No module named 'markupbase'

借助翻译软件，看HTMLParser官方文档找了第二种方法

from html.parser import HTMLParser

class MyHTMLParser(HTMLParser):

def handle_data(self, data):
    print(data)
    return data

parser = MyHTMLParser()
s = '&l t;abc&g t;&nbs p;' #避免网页转义留了个空格
ss=parser.feed(s)

第二种方法测试成功，遇到的问题是，return data 这一句，返回数据是无效的？

请问，有没有就几句代码解决转义的，如果没有第二种方法里如何才有返回值？

typecho

Following the voice in heart.

全部回复(1)

某草草2017-06-12 09:29:01 1 楼

雷雷

点赞 +0

添加回复

热门专题

更多>