网页爬虫 - ubuntu 下 python 使用 selenium + PhantomJS 时出错
PHP中文网
PHP中文网 2017-04-17 14:33:09
0
4
897
PHP中文网
PHP中文网

认证0级讲师

membalas semua(4)
迷茫

我最近也遇到,我认为是动态js还没解析,所以没获取到网页代码。异常是NoSuchElementException,很明显了。

洪涛

还有一种可能,是由于phantomjs属于headless browser,是没有窗口的,那么可能所有元素都没有绘制。所以这时候你find任何元素都是NoSuchElementException异常。
可以尝试如下步骤:

browser = webdriver.PhantomJS()
browser.set_window_size(800, 600) # set browser size.
browser.get("http\:example.com") # Load page

参考:https://github.com/ariya/phantomjs/issues/11637

刘奇

自己回答一下吧。
在stackoverflow上找到了一个解决方法。
屏蔽掉css,图片和js,以提高速度。
虽然PhantomJS还是不能用,但是确实速度变快了,目的达到就好。

firefox_profile = webdriver.FirefoxProfile()
firefox_profile.set_preference("browser.download.folderList", 2)
firefox_profile.set_preference("permissions.default.stylesheet", 2)
firefox_profile.set_preference("permissions.default.image", 2)
firefox_profile.set_preference("javascript.enable", False)

browser = webdriver.Firefox(firefox_profile=firefox_profile)

http://stackoverflow.com/questions/20892768/how-to-speed-up-browsing-in-selenium-firefox
http://stackoverflow.com/questions/17462884/is-selenium-slow-or-is-my-code-wrong

阿神

这样的话,岂不是js也无法解析了,为什么不用其他的更快的工具呢?

Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan