python - 为什么明明我可以访问的网站, urlopen却会报 404: Not Found

Question

有的说是因为代理.我的浏览器倒是经常开着代理, 但是我已经关闭了. 我特意查看了下HTTP报文, 也都是没经过代理的.但还是会出错. 代码: {代码...} python版本: 3.5.1 报错信息:urllib.error.HTTPError: HTTP Error...

大家讲道理 · Answer

我這邊在windows下的python 3.5.2是沒有問題的。
建議你抓包比較一下和瀏覽器訪問時請求有什麼不同。

Python 3.5.2 (v3.5.2:4def2a2901a5, Jun 25 2016, 22:18:55) [MSC v.1900 64 bit (AMD64)] on win32
>>> 
>>> 
>>> 
>>> import urllib.request
>>> url = "http://news.dbanotes.net/"
>>> req = urllib.request.Request(url)
>>> page = urllib.request.urlopen(req).read()
>>> page
b'

伊谢尔伦 · Answer

這個有可能是你的agent的設定值有關，因為有的網站會檢查這個，來防止非瀏覽器進行爬蟲

巴扎黑 · Answer

你把瀏覽器中的 headers 和 cookies 複製出來，加入到urllib的Request物件中。
模擬瀏覽器~~

天蓬老师 · Answer

很重要的一個原因，你程式中請求帶過去的agen頭被對方封了，換下agen頭試試吧。

阿神 · Answer

用不著Request 吧，直接urlopen呢