request庫爬蟲是什麼?如何使用?這篇文章帶給大家的內容是介紹request庫爬蟲是什麼?如何使用?透過實例講解。有一定的參考價值,有需要的朋友可以參考一下,希望對你們有幫助。
利用request.get()返回response物件爬出單一京東頁面資訊
import requests url = "https://item.jd.com/21508090549.html" try: r = requests.get(url) r.raise_for_status() #检验http状态码是否为200 r.encoding = r.apparent_encoding#识别页面正确编码 print(r.text[:1000]) except: print("爬取失败")
如果用上面的程式碼存取亞馬遜頁面,就會爬取到錯誤訊息,因為亞馬遜robots協定中定義了不允許非主流瀏覽器對頁面進行訪問,所以要對request訪問信息中的'user-agent'設置
import requests url = "https://www.amazon.cn/gp/product/B01M8L5Z3Y" try: #kv = {'user-agent':'Mozilla/5.0'}#假装访问浏览器为Mozilla/5.0 r = requests.get(url) r.raise_for_status()#检验http状态码是否为200 r.encoding = r.apparent_encoding#识别页面正确编码 print(r.text[:1000]) except: print("爬取失败")
利用代碼模仿百度/360搜索
需要在url上新增參數百度的'wd=..'/360是'q=...'
import requests url = "http://www.baidu.com/s" keyword="python" try: kv = {'wd':key} r = requests.get(url,params=kv) print(r.request.url) r.raise_for_status()#检验http状态码是否为200 r.encoding = r.apparent_encoding#识别页面正确编码 print(len(r.text))#由于信息量可能特别大,这里只输出长度 except: print("爬取失败")
爬取並儲存圖片
rrreee總結:以上就是這篇文章的全部內容,希望能對大家的學習有所幫助。更多相關教學請造訪C#影片教學!
以上是request庫爬蟲是什麼?如何使用? (實例講解)的詳細內容。更多資訊請關注PHP中文網其他相關文章!