request庫爬蟲是什麼？如何使用？（實例講解）-Python教學-PHP中文網

request庫爬蟲是什麼？如何使用？（實例講解）

青灯夜游

發布： 2018-10-22 16:04:33

轉載

3533 人瀏覽過

request庫爬蟲是什麼？如何使用？這篇文章帶給大家的內容是介紹request庫爬蟲是什麼？如何使用？透過實例講解。有一定的參考價值，有需要的朋友可以參考一下，希望對你們有幫助。

利用request.get()返回response物件爬出單一京東頁面資訊

import requests
url = "https://item.jd.com/21508090549.html"
try:
	r = requests.get(url)
	r.raise_for_status()          #检验http状态码是否为200
	r.encoding = r.apparent_encoding#识别页面正确编码
	print(r.text[:1000])
except:
	print("爬取失败")

登入後複製

如果用上面的程式碼存取亞馬遜頁面，就會爬取到錯誤訊息，因為亞馬遜robots協定中定義了不允許非主流瀏覽器對頁面進行訪問，所以要對request訪問信息中的'user-agent'設置

import requests
url = "https://www.amazon.cn/gp/product/B01M8L5Z3Y"
try:
	#kv = {&#39;user-agent&#39;:&#39;Mozilla/5.0&#39;}#假装访问浏览器为Mozilla/5.0
	r = requests.get(url)
	r.raise_for_status()#检验http状态码是否为200
	r.encoding = r.apparent_encoding#识别页面正确编码
	print(r.text[:1000])
except:
	print("爬取失败")

登入後複製

利用代碼模仿百度/360搜索

需要在url上新增參數百度的'wd=..'/360是'q=...'

import requests
url = "http://www.baidu.com/s"
keyword="python"
try:
	kv = {&#39;wd&#39;:key}
	r = requests.get(url,params=kv)
	print(r.request.url)
	r.raise_for_status()#检验http状态码是否为200
	r.encoding = r.apparent_encoding#识别页面正确编码
	print(len(r.text))#由于信息量可能特别大，这里只输出长度
except:
	print("爬取失败")

登入後複製

爬取並儲存圖片

rrreee

總結：以上就是這篇文章的全部內容，希望能對大家的學習有所幫助。更多相關教學請造訪C#影片教學！

以上是request庫爬蟲是什麼？如何使用？（實例講解）的詳細內容。更多資訊請關注PHP中文網其他相關文章！