python - 为什么明明我可以访问的网站, urlopen却会报 404: Not Found-PHP中国語ネットワークQ&A

コミュニティ

学ぶ

ツールライブラリ

AIツール

レジャー

日本語

python - 为什么明明我可以访问的网站, urlopen却会报 404: Not Found

PHPz 2017-04-18 09:40:11

0

5

536

有的说是因为代理.
我的浏览器倒是经常开着代理, 但是我已经关闭了.
我特意查看了下HTTP报文, 也都是没经过代理的.
但还是会出错.

代码:

import urllib.request

url = "http://news.dbanotes.net/"
req = urllib.request.Request(url)

page = urllib.request.urlopen(req).read().decode("UTF-8")
print(page)

python版本: 3.5.1

报错信息:
urllib.error.HTTPError: HTTP Error 404: Not Found

应该可以排除以下的问题:

代理
网络问题
url不存在
代码有错

至于反爬虫这个我应该可能性也不大,
一来我试了很多个URL, 基本就是六四分, 有的能访问, 有的不能, 而且我们学校的官网那么, 我才不信他会...
二来我加了User-Agent的首部还是不能访问.

PHPz

学习是最好的投资！

全員に返信(5)

大家讲道理2017-04-18 09:42:11 5棟

Windows では Python 3.5.2 には問題はありません。
ブラウザからアクセスした際には、パケットをキャプチャしてリクエストと比較することをお勧めします。

リーリー

いいねを押す +0

返信を追加

伊谢尔伦2017-04-18 09:42:11 4棟

一部の Web サイトはブラウザ以外のクロールを防ぐためにこれをチェックするため、これはエージェントの設定値に関連している可能性があります

いいねを押す +0

返信を追加

巴扎黑

巴扎黑2017-04-18 09:42:11 3棟

ブラウザからヘッダーと Cookie をコピーし、urllib の Request オブジェクトに追加します。
シミュレートされたブラウザ~~

いいねを押す +0

返信を追加

Peter_Zhu2017-04-18 09:42:11 2棟

非常に重要な理由は、プログラムで要求したエージェントヘッダーが相手によってブロックされているということです。エージェントヘッダーを変更してみてください。

いいねを押す +0

返信を追加

阿神2017-04-18 09:42:11 1棟

リクエストを使用する必要はなく、直接 urlopen するだけです

いいねを押す +0

返信を追加

人気のトピック

詳細>

人気の記事

人気のチュートリアル

詳細>

関連するチュートリアル

人気のおすすめ

最新のコース

最新のダウンロード

詳細>

ウェブエフェクト

公式サイト

サイト素材

フロントエンドテンプレート