深入理解Python分散式爬蟲原理-Python教學-PHP中文網

python影片教學專欄介紹分散式爬蟲原理。

深入理解Python分散式爬蟲原理

免費推薦：python影片教學

首先，我們先來看，如果是人正常的行為，是如何取得網頁內容的。

(1)開啟瀏覽器，輸入URL，開啟來源網頁

#(2)選取我們想要的內容，包括標題，作者，摘要，正文等資訊

(3)儲存到硬碟中

上面的三個過程，映射到技術層面上，其實就是：網路請求，抓取結構化數據，資料儲存。

我們使用Python寫一個簡單的程序，實作上面的簡單抓取功能。

#!/usr/bin/python 
#-*- coding: utf-8 -*- 
&#39;&#39;&#39;&#39;&#39; 
Created on 2014-03-16 
 
@author: Kris 
&#39;&#39;&#39; 
import urllib2, re, cookielib 
 
def httpCrawler(url): 
  &#39;&#39;&#39;&#39;&#39; 
  @summary: 网页抓取 
  &#39;&#39;&#39; 
  content = httpRequest(url) 
  title = parseHtml(content) 
  saveData(title) 
 
def httpRequest(url): 
  &#39;&#39;&#39;&#39;&#39; 
  @summary: 网络请求 
  &#39;&#39;&#39;  
  try: 
    ret = None 
    SockFile = None 
    request = urllib2.Request(url) 
    request.add_header(&#39;User-Agent&#39;, &#39;Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; SV1; .NET CLR 1.1.4322)&#39;) 
    request.add_header(&#39;Pragma&#39;, &#39;no-cache&#39;) 
    opener = urllib2.build_opener() 
    SockFile = opener.open(request) 
    ret = SockFile.read() 
  finally: 
    if SockFile: 
      SockFile.close() 
     
  return ret 
 
def parseHtml(html): 
  &#39;&#39;&#39;&#39;&#39; 
  @summary: 抓取结构化数据 
  &#39;&#39;&#39; 
  content = None 
  pattern = &#39;<title>([^<]*?)</title>&#39; 
  temp = re.findall(pattern, html) 
  if temp: 
    content = temp[0] 
   
  return content 
   
def saveData(data): 
  &#39;&#39;&#39;&#39;&#39; 
  @summary: 数据存储 
  &#39;&#39;&#39; 
  f = open(&#39;test&#39;, &#39;wb&#39;) 
  f.write(data) 
  f.close() 
   
if __name__ == &#39;__main__&#39;: 
  url = &#39;http://www.baidu.com&#39; 
  httpCrawler(url)

登入後複製

看起來很簡單，是的，它就是一個爬蟲入門的基礎程式。當然，在實現一個採集過程，無非就是上面的幾個基礎步驟。但實現一個強大的採集過程，你會遇到下面的問題：

(1)需要帶著cookie資訊訪問，例如大多數的社交化軟體，基本上都是需要使用者登入之後，才能看到有價值的東西，其實很簡單，我們可以使用Python提供的cookielib模組，實現每次訪問都帶著源網站給的cookie信息去訪問，這樣只要我們成功模擬了登錄，爬蟲處於登錄狀態，那麼我們就可以採集到登入使用者看到的一切資訊了。以下是使用cookie對httpRequest()方法的修改：

ckjar = cookielib.MozillaCookieJar() 
cookies = urllib2.HTTPCookieProcessor(ckjar)     #定义cookies对象 
def httpRequest(url): 
  &#39;&#39;&#39;&#39;&#39; 
  @summary: 网络请求 
  &#39;&#39;&#39;  
  try: 
    ret = None 
    SockFile = None 
    request = urllib2.Request(url) 
    request.add_header(&#39;User-Agent&#39;, &#39;Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; SV1; .NET CLR 1.1.4322)&#39;) 
    request.add_header(&#39;Pragma&#39;, &#39;no-cache&#39;) 
    opener = urllib2.build_opener(cookies)    #传递cookies对象 
    SockFile = opener.open(request) 
    ret = SockFile.read() 
  finally: 
    if SockFile: 
      SockFile.close() 
     
  return ret

登入後複製

(2)編碼問題。網站目前最多的兩種編碼：utf-8，或gbk，當我們收集回來源網站編碼和我們資料庫儲存的編碼不一致時，例如，163.com的編碼使用的是gbk，而我們需要儲存的是utf -8編碼的數據，那麼我們可以使用Python中提供的encode()和decode()方法進行轉換，例如：

content = content.decode(&#39;gbk&#39;, &#39;ignore&#39;)   #将gbk编码转为unicode编码 
content = content.encode(&#39;utf-8&#39;, &#39;ignore&#39;)  #将unicode编码转为utf-8编码

登入後複製

中間出現了unicode編碼，我們需要轉為中間編碼unicode，才能向gbk或utf-8轉換。

(3)網頁中標籤不完整，例如有些原始程式碼中出現了起始標籤，但沒有結束標籤，HTML標籤不完整，就會影響我們抓取結構化數據，我們可以透過Python的BeautifulSoup模組，先將原始碼清洗，再分析取得內容。

(4)某些網站使用JS來生存網頁內容。當我們直接查看原始碼的時候，發現是一堆讓人頭痛的JS程式碼。可以使用mozilla、webkit等可以解析瀏覽器的工具包解析js、ajax，雖然速度會稍微慢一點。

(5)圖片是flash形式存在的。當圖片中的內容是文字或數字組成的字符，那這個就比較好辦，我們只要利用ocr技術，就能實現自動識別了，但是如果是flash鏈接，我們將整個URL存儲起來了。

(6)一個網頁出現多個網頁結構的情況，這樣我們如果只是一套抓取規則，那肯定不行，所以需要配置多套模擬進行協助配合抓取。

(7)應對來源網站的監控。抓取別人的東西，畢竟是不太好的事情，所以一般網站都會有針對爬蟲禁止存取的限制。
一個好的採集系統，應該是，不管我們的目標資料在何處，只要是使用者能看見的，我們都能採集回來。所見即所得的無阻攔式採集，無論是否需要登入的資料都能夠順利採集。大部分有價值的資訊，一般都需要登入才能看到，例如社群網站，為了應對登入的網站要有模擬使用者登入的爬蟲系統，才能正常取得資料。不過社會化網站都希望自己形成一個閉環，不願意把數據放到站外，這種系統也不會像新聞等內容那麼開放的讓人獲取。這些社會化網站大部分會採取一些限制防止機器人爬蟲系統爬取數據，一般一個帳號爬取不了多久就會被檢測出來被禁止訪問了。那是不是我們就不能爬取這些網站的資料呢？肯定不是這樣的，只要社會化網站不關閉網頁訪問，正常人能夠訪問的數據，我們也能訪問。說到底就是模擬人的正常行為操作，專業一點叫「反監控」。

來源網站一般會有以下幾種限制：

1、一定時間內單一IP造訪次數，一個正常使用者造訪網站，除非隨意的點著玩，否則不會在一段持續時間內過快訪問一個網站，持續時間也不會太長。這個問題好辦，我們可以採用大量不規則代理IP形成一個代理池，隨機從代理池中選擇代理，模擬存取。代理IP有兩種，透明代理和匿名代理。

2、一定時間內單一帳號存取次數，如果一個人一天24小時都在存取一個資料接口，而且速度非常快，那就有可能是機器人了。我們可以採用大量行為正常的帳號，行為正常就是普通人怎麼在社交網站上操作，並且單位時間內，訪問URL數目盡量減少，可以在每次訪問中間間隔一段時間，這個時間間隔可以是一個隨機值，即每次訪問完一個URL，隨機隨眠一段時間，再接著訪問下一個URL。

如果能把帳號和IP的存取策略控制好了，基本上就沒什麼問題了。當然對方網站也會有維運會調整策略，敵我雙方的一場較量，爬蟲必須要能感知到對方的反監控將會對我們有影響，通知管理員及時處理。其實最理想的是能夠透過機器學習，智慧的實現反監控對抗，實現不間斷地抓取。

以下是自己近期正在設計的分散式爬蟲架構圖，如圖1所示：