python - 抓取一个代理ip网页,使用cookie但是报错
巴扎黑
巴扎黑 2017-04-18 10:31:00
0
1
697
from urllib.request import *
from http.cookiejar import *
url = 'http://www.kuaidaili.com/proxylist/8/'
cookies = MozillaCookieJar()
hander = HTTPCookieProcessor(cookies)
opener = build_opener(hander)
install_opener(opener)
html = urlopen(url).read()
print(html)

这个网页访问是需要cookie的,我用上述方法访问,显示:httperror:521错误异常

巴扎黑
巴扎黑

全員に返信(1)
Ty80

これがこの Web サイトの戦略です。最初の訪問では 512 が返されますが、ページにはまだコンテンツがあります

。 リーリー

彼は js 内で重要なキーを隠し、eval 関数を通じて変換ジャンプを実行します。これはコードを混乱させる役割を果たしますが、Selenium を使用することでこの問題を解決できる可能性があります

説明: プロキシ Web サイト自体はクローラーのプロキシ プロバイダーであり、クロール防止において非常に優れた機能を果たします。クローラーはメインコンテンツを取得することに重点を置くべきだと思います。費用を節約するために無料のプロキシをクロールすると、時間がかかりすぎて効率が低くなります。私は会社で kuadaili の有料エージェントを直接使用しています。基本的にエージェントの取得についてはあまり考えていません。同時実行性の高い条件下でエージェントをより効果的に活用する方法を考えるだけです。

いいねを押す +0
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート