目錄
1. 什麼是網路爬蟲
為什麼需要網路爬蟲
網路爬蟲的應用
2. 網路傳輸協定HTTP
3. requests庫(不喜歡理論知識的同學們可以直接來這裡哦)
1. requests庫的安裝
2. 實戰
首頁 後端開發 Python教學 Python網路爬蟲requests函式庫怎麼使用

Python網路爬蟲requests函式庫怎麼使用

May 15, 2023 am 10:34 AM
python requests

1. 什麼是網路爬蟲

簡單來說,就是建立一個程序,以自動化的方式從網路上下載、解析和組織資料。

就像我們瀏覽網頁的時候,對於我們感興趣的內容我們會複製粘貼到自己的筆記本中,方便下次閱讀瀏覽——網絡爬蟲幫我們自動完成這些內容

當然如果遇到一些無法複製貼上的網站——網路爬蟲就更能顯示它的力量了

為什麼需要網路爬蟲

當我們需要做一些資料分析的時候——而很多時候這些資料儲存在網頁中,手動下載需要花費的時間太長,這時候我們就需要網路爬蟲幫助我們自動爬取這些資料來(當然我們會過濾掉網頁上那些沒用的東西)

網路爬蟲的應用

存取和收集網路資料有十分廣泛的應用,其中許多屬於資料科學領域我們來看看下面這些例子:

淘寶網的賣家需要從海量的評價中尋找到有用的正面的和反面的信息,來幫助他進一步抓住顧客的心,分析顧客的購物心理有學者在twitter、微博等社交媒體上爬取資訊來建構一個資料集,從而建立一個識別憂鬱症和自殺念頭的預測模型——讓更多需要援助的人得到幫助——當然我們也需要考慮到隱私相關的問題——但這很酷不是嗎?

作為一名人工智慧工程師,他們從Ins上爬取志願者所展示的喜好的圖片,來訓練深度學習模型,從而預測給出的圖像是否會被志願者所喜好—&mdash ;手機製造商將這些模型納入他們的圖片應用程式中,推送給你。電商平台的資料科學家爬取用戶瀏覽商品的信息,進行分析和預測,以便推送給用戶他最想要了解和購買的商品

是的!網路爬蟲的應用十分廣泛,小到我們日常用來批量爬取一些高清的壁紙,圖片;大到人工智慧、深度學習、商業策略制定的資料來源等。

這個時代是資料的時代,資料就是「新油」

2. 網路傳輸協定HTTP

沒錯,講到網路爬蟲一定繞不開的就是這個HTTP,當然我們不需要像網路工程師那樣詳細的了解協定定義的方方面面,但是作為入門我們還是得具有一定的認識才行

國際標準化組織ISO維護了開放式通訊系統互聯參考模型OSI,而該模型將電腦通訊結構分為七層

  1. 實體層:包括乙太網路協定、USB協定、藍牙協定等

  2. 資料鏈路層:包含乙太網路協定

  3. 網路層:包含IP協定

  4. 傳輸層:包含TCP、UDP協定

  5. 會話層:包含用於開啟/關閉和管理會話的協定

  6. #表示層:包含保護格式也和翻譯資料的協定

  7. 應用程式層:包含HTTP和DNS網路服務協定

現在來看看HTTP請求和回應是什麼樣子的(因為後面會涉及自定義請求頭) 一般請求訊息由一下內容構成:

  • 請求行

  • 多個請求頭

  • #空行

  • 可選的訊息主體

#具體的請求訊息:

GET https://www.baidu.com/?tn=80035161_1_dg HTTP/1.1
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: zh-Hans-CN,zh-Hans;q=0.8,en-GB;q=0.5,en;q=0.3
Upgrade-Insecure-Requests: 1
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 Edge/18.18362
Accept-Encoding: gzip, deflate, br
Host: www.baidu.com
Connection: Keep-Alive
登入後複製

這個是訪問百度時的請求,當然裡面的許多細節我們也不需要知道,因為python的request包會幫助我們完成我們的爬取

當然我們也能查看網頁對我們的請求返回的信息:

HTTP/1.1 200 OK //这边的状态码为200表示我们的请求成功
Bdpagetype: 2
Cache-Control: private
Connection: keep-alive
Content-Encoding: gzip
Content-Type: text/html;charset=utf-8
Date: Sun, 09 Aug 2020 02:57:00 GMT
Expires: Sun, 09 Aug 2020 02:56:59 GMT
X-Ua-Compatible: IE=Edge,chrome=1
Transfer-Encoding: chunked
登入後複製

3. requests庫(不喜歡理論知識的同學們可以直接來這裡哦)

#我們知道其實python還預置了另外的處理HTTP的庫——urllib和urllib3,但requests函式庫學起來比較容易——程式碼比較簡潔易懂。當然當我們成功爬取下網頁時,將要將裡面我們感興趣的東西提取出來的時候, 我們會提到另一個十分有用的庫——美麗湯(Beautiful Soup)——這又是後話了

1. requests庫的安裝

這裡我們可以直接找到requests的.whl檔案安裝,也可以直接使用pip來安裝(當然如果有pycharm的同學可以直接從裡面的環境載入中下載)

2. 實戰

#下面我們開始正式爬取網頁

程式碼如下:

import requests
target = 'https://www.baidu.com/'
get_url = requests.get(url=target)
print(get_url.status_code)
print(get_url.text)
登入後複製

輸出結果

200 //返回状态码200表示请求成功
<!DOCTYPE html>//这里删除了很多内容,实际上输出的网页信息比这要多得多
<!--STATUS OK--><html> <head><meta http-equiv=content-type content=text/html;
charset=utf-8><meta http-equiv=X-UA-Compatible content=IE=Edge>
<meta content=always name=referrer>
<link rel=stylesheet type=text/css 
src=//www.baidu.com/img/gs.gif> 
</p> </div> </div> </div> </body> </html>
登入後複製

上面五行程式碼做了很多事情,我們已經可以將網頁的HTML內容全部抓取

#第一行程式碼:載入requests函式庫第二行程式碼:給出需要爬取的網站第三行程式碼:使用requests進行請求一般的格式如下:

对象 = requests.get(url=你想要爬取的网站地址)
登入後複製

第四行程式碼:傳回請求的狀態碼第五行程式碼:輸出對應的內容主體

#當然我們也可以列印更多的內容

import requests

target = &#39;https://www.baidu.com/&#39;
get_url = requests.get(url=target)
# print(get_url.status_code)
# print(get_url.text)
print(get_url.reason)//返回状态
print(get_url.headers)
//返回HTTP响应中包含的服务器头的内容(和上面展示的内容差不多)
print(get_url.request)
print(get_url.request.headers)//返回请求中头的内容
登入後複製
OK
{&#39;Cache-Control&#39;: &#39;private, no-cache, no-store, proxy-revalidate, no-transform&#39;, 
&#39;Connection&#39;: &#39;keep-alive&#39;, 
&#39;Content-Encoding&#39;: &#39;gzip&#39;, 
&#39;Content-Type&#39;: &#39;text/html&#39;, 
&#39;Date&#39;: &#39;Sun, 09 Aug 2020 04:14:22 GMT&#39;,
&#39;Last-Modified&#39;: &#39;Mon, 23 Jan 2017 13:23:55 GMT&#39;, 
&#39;Pragma&#39;: &#39;no-cache&#39;, 
&#39;Server&#39;: &#39;bfe/1.0.8.18&#39;, 
&#39;Set-Cookie&#39;: &#39;BDORZ=27315; max-age=86400; domain=.baidu.com; path=/&#39;, &#39;Transfer-Encoding&#39;: &#39;chunked&#39;}
<PreparedRequest [GET]>
{&#39;User-Agent&#39;: &#39;python-requests/2.22.0&#39;, 
&#39;Accept-Encoding&#39;: &#39;gzip, deflate&#39;, 
&#39;Accept&#39;: &#39;*/*&#39;, 
&#39;Connection&#39;: &#39;keep-alive&#39;}
登入後複製

以上是Python網路爬蟲requests函式庫怎麼使用的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

PHP和Python:解釋了不同的範例 PHP和Python:解釋了不同的範例 Apr 18, 2025 am 12:26 AM

PHP主要是過程式編程,但也支持面向對象編程(OOP);Python支持多種範式,包括OOP、函數式和過程式編程。 PHP適合web開發,Python適用於多種應用,如數據分析和機器學習。

在PHP和Python之間進行選擇:指南 在PHP和Python之間進行選擇:指南 Apr 18, 2025 am 12:24 AM

PHP適合網頁開發和快速原型開發,Python適用於數據科學和機器學習。 1.PHP用於動態網頁開發,語法簡單,適合快速開發。 2.Python語法簡潔,適用於多領域,庫生態系統強大。

PHP和Python:深入了解他們的歷史 PHP和Python:深入了解他們的歷史 Apr 18, 2025 am 12:25 AM

PHP起源於1994年,由RasmusLerdorf開發,最初用於跟踪網站訪問者,逐漸演變為服務器端腳本語言,廣泛應用於網頁開發。 Python由GuidovanRossum於1980年代末開發,1991年首次發布,強調代碼可讀性和簡潔性,適用於科學計算、數據分析等領域。

Python vs. JavaScript:學習曲線和易用性 Python vs. JavaScript:學習曲線和易用性 Apr 16, 2025 am 12:12 AM

Python更適合初學者,學習曲線平緩,語法簡潔;JavaScript適合前端開發,學習曲線較陡,語法靈活。 1.Python語法直觀,適用於數據科學和後端開發。 2.JavaScript靈活,廣泛用於前端和服務器端編程。

vs code 可以在 Windows 8 中運行嗎 vs code 可以在 Windows 8 中運行嗎 Apr 15, 2025 pm 07:24 PM

VS Code可以在Windows 8上運行,但體驗可能不佳。首先確保系統已更新到最新補丁,然後下載與系統架構匹配的VS Code安裝包,按照提示安裝。安裝後,注意某些擴展程序可能與Windows 8不兼容,需要尋找替代擴展或在虛擬機中使用更新的Windows系統。安裝必要的擴展,檢查是否正常工作。儘管VS Code在Windows 8上可行,但建議升級到更新的Windows系統以獲得更好的開發體驗和安全保障。

sublime怎麼運行代碼python sublime怎麼運行代碼python Apr 16, 2025 am 08:48 AM

在 Sublime Text 中運行 Python 代碼,需先安裝 Python 插件,再創建 .py 文件並編寫代碼,最後按 Ctrl B 運行代碼,輸出會在控制台中顯示。

visual studio code 可以用於 python 嗎 visual studio code 可以用於 python 嗎 Apr 15, 2025 pm 08:18 PM

VS Code 可用於編寫 Python,並提供許多功能,使其成為開發 Python 應用程序的理想工具。它允許用戶:安裝 Python 擴展,以獲得代碼補全、語法高亮和調試等功能。使用調試器逐步跟踪代碼,查找和修復錯誤。集成 Git,進行版本控制。使用代碼格式化工具,保持代碼一致性。使用 Linting 工具,提前發現潛在問題。

vscode在哪寫代碼 vscode在哪寫代碼 Apr 15, 2025 pm 09:54 PM

在 Visual Studio Code(VSCode)中編寫代碼簡單易行,只需安裝 VSCode、創建項目、選擇語言、創建文件、編寫代碼、保存並運行即可。 VSCode 的優點包括跨平台、免費開源、強大功能、擴展豐富,以及輕量快速。

See all articles