当python爬虫遇到10060错误_html/css_WEB-ITnose-html教學-PHP中文網

首頁

web前端

html教學

当python爬虫遇到10060错误_html/css_WEB-ITnose

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 21, 2016 am 08:50 AM

相信做过网站爬虫工作的同学都知道，python的urllib2用起来很方便，使用以下几行代码就可以轻松拿到某个网站的源码：

#coding=utf-8import urllibimport urllib2import reurl = "http://wetest.qq.com"request = urllib2.Request(url)page = urllib2.urlopen(url)html = page.read()print html

登入後複製

最后通过一定的正则匹配，解析返回的响应内容即可拿到你想要的东东。

但这样的方式在办公网和开发网下，处理部分外网站点时则会行不通。

比如： http://tieba.baidu.com/p/2460150866 ，执行时一直报10060的错误码，提示连接失败。

#coding=utf-8import urllibimport urllib2import reurl = "http://tieba.baidu.com/p/2460150866"request = urllib2.Request(url)page = urllib2.urlopen(url)html = page.read()print html

登入後複製

执行后，错误提示截图如下：

为了分析这一问题的原因，撸主采用了如下过程：

1、在浏览器里输入，可以正常打开，说明该站点是可以访问的。

2、同样的脚本放在公司的体验网上运行OK，说明脚本本身没有问题。

通过以上两个步骤，初步判断是公司对于外网的访问策略限制导致的。于是查找了下如何给urllib2设置ProxyHandler代理，将代码修改为如下：

#coding=utf-8import urllibimport urllib2import re# The proxy address and port:proxy_info = { 'host' : 'web-proxy.oa.com','port' : 8080 }# We create a handler for the proxyproxy_support = urllib2.ProxyHandler({"http" : "http://%(host)s:%(port)d" % proxy_info})# We create an opener which uses this handler:opener = urllib2.build_opener(proxy_support)# Then we install this opener as the default opener for urllib2:urllib2.install_opener(opener)url = "http://tieba.baidu.com/p/2460150866"request = urllib2.Request(url)page = urllib2.urlopen(url)html = page.read()print html

登入後複製

再次运行，可以拿到所要的Html页面了。到这里就完了么？没有啊！撸主想拿到贴吧里的各种美图，保存在本地，上代码吧：

#coding=utf-8import urllibimport urllib2import re# The proxy address and port:proxy_info = { 'host' : 'web-proxy.oa.com','port' : 8080 }# We create a handler for the proxyproxy_support = urllib2.ProxyHandler({"http" : "http://%(host)s:%(port)d" % proxy_info})# We create an opener which uses this handler:opener = urllib2.build_opener(proxy_support)# Then we install this opener as the default opener for urllib2:urllib2.install_opener(opener)url = "http://tieba.baidu.com/p/2460150866"request = urllib2.Request(url)page = urllib2.urlopen(url)html = page.read()#正则匹配reg = r'src="(.+?\.jpg)" pic_ext'imgre = re.compile(reg)imglist = re.findall(imgre,html)print 'start dowload pic'x = 0for imgurl in imglist:urllib.urlretrieve(imgurl,'pic\\%s.jpg' % x)x = x+1

登入後複製

再次运行，发现还是有报错！尼玛！又是10060报错，我设置了urllib2的代理了啊，为啥还是报错！

于是撸主继续想办法，一定要想拿到贴吧里的各种美图。既然通过正则匹配可以拿到贴吧里的图片的url，为何不手动去调用urllib2.urlopen去打开对应的url，获得对应的response，然后read出对应的图片二进制数据，然后保存图片到本地文件。于是有了下面的代码：

#coding=utf-8import urllibimport urllib2import re# The proxy address and port:proxy_info = { 'host' : 'web-proxy.oa.com','port' : 8080 }# We create a handler for the proxyproxy_support = urllib2.ProxyHandler({"http" : "http://%(host)s:%(port)d" % proxy_info})# We create an opener which uses this handler:opener = urllib2.build_opener(proxy_support)# Then we install this opener as the default opener for urllib2:urllib2.install_opener(opener)url = "http://tieba.baidu.com/p/2460150866"request = urllib2.Request(url)page = urllib2.urlopen(url)html = page.read()#正则匹配reg = r'src="(.+?\.jpg)" pic_ext'imgre = re.compile(reg)imglist = re.findall(imgre,html)x = 0print 'start'for imgurl in imglist:print imgurlresp = urllib2.urlopen(imgurl)respHtml = resp.read()picFile = open('%s.jpg' % x, "wb")picFile.write(respHtml)picFile.close()x = x+1print 'done'

登入後複製

再次运行，发现图片的url按预期的打印出来，并且图片也被保存下来了：

至此，已完成撸主原先要做的目的。哈哈，希望总结的东东对其他小伙伴也有用。

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

熱工具

熱門話題

Java教學

1670

CakePHP 教程

1428

Laravel 教程

1329

PHP教程

1274

C# 教程

1256

Related knowledge

HTML：結構，CSS：樣式，JavaScript：行為 Apr 18, 2025 am 12:09 AM

HTML、CSS和JavaScript在Web開發中的作用分別是：1.HTML定義網頁結構，2.CSS控製網頁樣式，3.JavaScript添加動態行為。它們共同構建了現代網站的框架、美觀和交互性。

HTML，CSS和JavaScript的未來：網絡開發趨勢 Apr 19, 2025 am 12:02 AM

HTML的未來趨勢是語義化和Web組件，CSS的未來趨勢是CSS-in-JS和CSSHoudini，JavaScript的未來趨勢是WebAssembly和Serverless。 1.HTML的語義化提高可訪問性和SEO效果，Web組件提升開發效率但需注意瀏覽器兼容性。 2.CSS-in-JS增強樣式管理靈活性但可能增大文件體積，CSSHoudini允許直接操作CSS渲染。 3.WebAssembly優化瀏覽器應用性能但學習曲線陡，Serverless簡化開發但需優化冷啟動問題。

HTML的未來：網絡設計的發展和趨勢 Apr 17, 2025 am 12:12 AM

HTML的未來充滿了無限可能。 1)新功能和標準將包括更多的語義化標籤和WebComponents的普及。 2)網頁設計趨勢將繼續向響應式和無障礙設計發展。 3)性能優化將通過響應式圖片加載和延遲加載技術提升用戶體驗。

HTML：建立網頁的結構 Apr 14, 2025 am 12:14 AM

HTML是構建網頁結構的基石。 1.HTML定義內容結構和語義，使用、、等標籤。 2.提供語義化標記，如、、等，提升SEO效果。 3.通過標籤實現用戶交互，需注意表單驗證。 4.使用、等高級元素結合JavaScript實現動態效果。 5.常見錯誤包括標籤未閉合和屬性值未加引號，需使用驗證工具。 6.優化策略包括減少HTTP請求、壓縮HTML、使用語義化標籤等。

HTML與CSS vs. JavaScript：比較概述 Apr 16, 2025 am 12:04 AM

HTML、CSS和JavaScript在網頁開發中的角色分別是：HTML負責內容結構，CSS負責樣式，JavaScript負責動態行為。 1.HTML通過標籤定義網頁結構和內容，確保語義化。 2.CSS通過選擇器和屬性控製網頁樣式，使其美觀易讀。 3.JavaScript通過腳本控製網頁行為，實現動態和交互功能。

HTML與CSS和JavaScript：比較Web技術 Apr 23, 2025 am 12:05 AM

HTML、CSS和JavaScript是構建現代網頁的核心技術：1.HTML定義網頁結構，2.CSS負責網頁外觀，3.JavaScript提供網頁動態和交互性，它們共同作用，打造出用戶體驗良好的網站。

HTML：是編程語言還是其他？ Apr 15, 2025 am 12:13 AM

HTMLISNOTAPROGRAMMENGUAGE; ITISAMARKUMARKUPLAGUAGE.1）htmlStructures andFormatSwebContentusingtags.2）itworkswithcsssforstylingandjavascript for Interactivity，增強WebevebDevelopment。