什麼是爬蟲?爬蟲的基本流程是什麼?

零下一度
發布: 2017-07-23 13:41:03
原創
36884 人瀏覽過

    網路爬蟲是一種程式,主要用於搜尋引擎,它將一個網站的所有內容與連結進行閱讀,並建立相關的全文索引到資料庫中,然後跳到另一個網站.樣子好像一隻大蜘蛛.
當人們在網路上(如google)搜尋關鍵字時,其實就是比對資料庫中的內容,找出與使用者相符的.網路爬蟲程式的品質決定了搜尋引擎的能力,如google的搜尋引擎明顯要比百度好,就是因為它的網路爬蟲程式高效,程式設計結構好.

一、什麼是爬蟲 

#  首先簡單的理解一下爬蟲。即請求網站並且提取自己所需的資料的一個過程。至於怎麼爬如何爬,將是後面學習的內容,暫且不必深究。透過我們的程序,可以代替我們向伺服器發送請求,然後進行批量、大量的資料的下載。

二、爬蟲的基本流程

  1. #發起請求:透過url向伺服器發起request請求,請求可以包含額外的header資訊。

  2. 取得回應內容:如果伺服器正常回應,那我們將會收到一個response,response就是我們所要求的網頁內容,或許包含HTML, Json字串或二進位的資料(影片、圖片)等。

  3. 解析內容:如果是HTML程式碼,則可以使用網頁解析器進行解析,如果是Json數據,則可以轉換成Json物件進行解析,如果是二進制的數據,則可以儲存到檔案進行進一步處理。

  4. 儲存資料:可以儲存到本機文件,也可以儲存到資料庫(MySQL,Redis,Mongodb等) 

#  

  三、request請求包含什麼

    當我們透過瀏覽器向伺服器發送request請求時,這個request包含了一些什麼資訊呢?我們可以透過chrome的開發者工具進行說明(如果不知道如何使用看本篇備註)。

  1. 請求方式:最常用的請求方式包含get請求和post請求。 post請求在開發中最常見的是透過表單提交,從使用者角度來講,最常見的就是登入驗證。當你需要輸入一些資訊進行登入的時候,這次請求即為post請求。

  2. url統一資源定位符:一個網址,一張圖片,一個影片等都可以用url去定義。當我們要求一個網頁時,我們可以查看network標籤,第一個通常是一個document,也就是說這個document是一個未加外部圖片、css、js等渲染的html代碼,在這個document的下面我們會看到一系列的jpg,js等,這是瀏覽器根據html代碼發起的一次又一次的請求,而請求的地址,即為html文檔中圖片、js等的url地址

  3. #request headers:請求頭,包括這次請求的請求類型,cookie資訊以及瀏覽器類型等。 這個請求頭在我們進行網頁抓取的時候還是有些作用的,伺服器會透過解析請求頭來進行資訊的審核,判斷這次請求是一次合法的請求。所以當我們透過程式偽裝瀏覽器進行請求的時候,就可以設定一下請求頭的資訊。

  4. 請求體:post請求會把使用者資訊包裝在form-data裡面進行提交,因此相較於get請求,post請求的Headers標籤的內容會多出Form Data這個資訊包。 get請求可以簡單的理解為普通的搜尋回車,訊息將會以?間隔添加在url的後面。

  

 四、response包含什麼

  1. ##回應狀態:透過Headers中的General可以看到status code。 200表示成功,301跳轉,404找不到網頁,502伺服器錯誤等。
  2. 回應頭:包括了內容的類型,cookie訊息等。 ######
  3. 回應體:請求的目的就是為了得到回應體,包括html程式碼,Json以及二進位資料等。

 

  五、簡單的請求示範

    透過Python的request庫進行網頁請求:

    

#    輸出的結果就是尚未渲染的網頁程式碼,也就是請求體的內容。可以查看回應頭的資訊:

    

    ##檢視狀態碼:##  #  

#CC

##HHHOaF

CC

HHHa號

  • CHH
  •  
也可以將請求頭加入到請求資訊裡面:

    

    

抓取圖片(百度標誌

    2):

        
  •  

     
  • 六、如何解決JavaScript渲染問題 

#    

使用Selenium web

    ##使用Selenium web

    ##使用Selenium web

    ##使用Selenium web

###  」 #######    #########    ###輸入print(driver.page_source)可以看到,這次的程式碼是渲染之後的程式碼。 ############【備註】chrome瀏覽器的使用#####################F12開啟開發者工具#### ####################  ############### ######  ###Elements標籤顯示了明顯後的HTML程式碼。 ##################Network標籤################  #########  ###Network標籤下有瀏覽器請求的數據,點開可以查看詳細的信息,如上提到的request headers、response headers等等。 ################

以上是什麼是爬蟲?爬蟲的基本流程是什麼?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

相關標籤:
來源:php.cn
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板