python - pyspider遇到不能识别的url时报错
PHP中文网
PHP中文网 2017-04-17 17:43:16
0
1
467

大家好,我遇到一个很棘手的问题想请教大家是怎么解决的。

问题描述:

pyspider遇到不规则的html页面时,只要其实包含不能正常解析的url时就会报错,如页面http://www.jb51.net/os/windows/win2008/18272.html,其中就有<p>作者:<a href="http://www.locoy.com 字体:[<a href="javascript:turnbig()">增加</a> <a href="javascript:turnsmall()">减小</a>] 来源:互联网 时间:07-02 01:51:10<a href="#comments"> 我要评论</a></p>,这里页面的链接不能正常解析就会报Invalid IPv6 URL错误
如下图:

PHP中文网
PHP中文网

认证高级PHP讲师

membalas semua(1)
大家讲道理

Jika anda ingin menggali lebih mendalam, ini ialah pepijat dalam perpustakaan standard lxml, pyquery dan urlparse.

Anda hanya boleh menangkapnya dan kemudian membina pokok secara manual.

Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan