首頁 > 後端開發 > Python教學 > 如何用Python搭建匿名代理池?搭建匿名代理池的方法

如何用Python搭建匿名代理池?搭建匿名代理池的方法

青灯夜游
發布: 2018-10-26 17:53:46
轉載
2363 人瀏覽過

這篇文章帶給大家的內容是介紹如何用Python搭建匿名代理池?搭建匿名代理池的方法。有一定的參考價值,有需要的朋友可以參考一下,希望對你們有幫助。

常聽到很多人抱怨自己的IP因爬蟲次數太多而被網站屏蔽,不得不頻繁使用各種代理IP,卻又因為網上的公開代理大部分都是不能使用,而又要花錢花精力申請VIP代理,幾番波折又被封鎖。特此寫一篇如何利用Python搭建代理池的文章,以降低時間及精力成本,實現自動化取得活躍代理IP的功能。

運作原理

一、網站代理取得

#1.    爬免費代理網站的IP清單測試是否可用及是否為高匿

2.    若都是,則放進資料庫,否則丟棄。

#3.    重複第2步驟

二、保證失效的代理能盡快從代理池中挑出

#1.  從爬蟲資料庫取得IP

2.    測試IP的可用性和匿名性

3.    如果可用且匿名,則保留如果可用且匿名,則保留如果可用且匿名,則保留,否則丟棄。

4.    重複第1步驟

說明①:可建立一個爬蟲程式守護程序(Daemon),並有此方面需要的小夥伴可自行谷歌,在此不多做介紹。

說明②:可建立一個對外代理資訊接口,無論你用NodeJS或Flask/Django或PHP來寫都沒關係,在此也不多做介紹。

實作:

       建議函式庫: requests, BeautifulSoup, re, sqlite3。

       其中,用requests庫獲取代理網站頁面,用BeautifulSoup和re兩庫來進行代理資訊獲取,用sqlite3來對這些資訊進行訪問。

       若有必要(如代理網站有反爬蟲策略時),可用PhantomJS取代requests,或以對應函式庫進行資料清理(如base64解碼)。

下面簡單展示一下各部分的程式碼:

首先是選擇多個能爬取代理且不容易被屏蔽IP的網站,此處以proxy-list.org為例:

BASE_URL = "https://proxy-list.org/english/index.php?p="


#IP地址及端口的正则

Re_Pattern_IP = re.compile("(.*):")

Re_Pattern_PORT = re.compile(":(.*)")


#网站有11页,所以循环11次获取所有代理IP及端口

for startingURL_Param in range(1,11):

   HTML_ProxyPage = requests.get(BASE_URL+str(startingURL_Param)).content

   soup = bs(HTML_ProxyPage,"html.parser")

   for Raw_ProxyInfo in soup.find_all("ul",{"class":None}):

       #此网站有用Base64简单对代理进行了加密,所以这里对其解码

       ip_port = base64.b64decode(Raw_ProxyInfo.find("li",{"class":"proxy"}).text.replace("Proxy('","").replace("')",""))

       #接下来利用正则从网页数据中提取我们需要的信息

       IP = re.findall(Re_Pattern_IP, ip_port)[0]

       PORT = re.findall(Re_Pattern_PORT, ip_port)[0]

       TYPE = Raw_ProxyInfo.find("li",{"class":"https"}).text
登入後複製

接下來是一段簡易代理池框架類別的程式碼,提供代理資料庫的新增、刪除、可連接性檢測、匿名性檢測:

class ProxyPool:        

   #初始化爬虫池数据库

   def __init__(self,ProxyPoolDB):

       self.ProxyPoolDB = ProxyPoolDB

       self.conn = sqlite3.connect(self.ProxyPoolDB, isolation_level=None)

       self.cursor = self.conn.cursor()

       self.TB_ProxyPool = "TB_ProxyPool"

       self.cursor.execute("CREATE TABLE IF NOT EXISTS "+self.TB_ProxyPool+"(ip TEXT UNIQUE, port INTEGER, protocol TEXT)")

 

   #添加代理IP进代理池的接口

   def addProxy(self, IP, PORT, PROTOCOL):  

       self.cursor.execute("INSERT OR IGNORE INTO " + self.TB_ProxyPool+"(ip, port, protocol) VALUES (?,?,?)", [IP,PORT,PROTOCOL])

 

   #检查代理的匿名性及可连接性

   def testConnection(self, IP, PORT, PROTOCOL):

       proxies = { PROTOCOL: IP+":"+PORT }

       try:

           OrigionalIP = requests.get("http://icanhazip.com",timeout=REQ_TIMEOUT).content

           MaskedIP = requests.get("http://icanhazip.com", timeout=REQ_TIMEOUT,proxies=proxies).content

           if OrigionalIP != MaskedIP:

               return True

           else:

               return False

       except:    

           return False

 

   #删除代理IP对应的数据库记录

   def delRecord(self, IP):

       self.cursor.execute("DELETE FROM "+self.TB_ProxyPool+" WHERE ip=?",(IP,))
登入後複製

 下面是對代理池進行去“失效IP」的程式碼:    

#循环代理池,逐行测试IP地址端口协议是否可用

def cleanNonWorking(self):

   for info in self.cursor.execute("SELECT * FROM "+self.TB_ProxyPool).fetchall():

       IP = info[0]

       PORT = str(info[1])

       PROTOCOL = info[2].lower()

 

       isAnonymous = self.testConnection(IP,PORT,PROTOCOL)

       if isAnonymous == False:

           #这条代理的可用性失效了,从数据库里删除

           self.delRecord(IP)

 

#通过检测icanhazip.com回显来检测可用性及匿名性

def testConnection(self, IP, PORT, PROTOCOL):

       proxies = { PROTOCOL: IP+":"+PORT }

       try:

           OrigionalIP = requests.get("http://icanhazip.com",timeout=REQ_TIMEOUT).content

           MaskedIP = requests.get("http://icanhazip.com", timeout=REQ_TIMEOUT,proxies=proxies).content

           if OrigionalIP != MaskedIP:

               return True

           else:

               return False

       except:    

           return False
登入後複製

#反射

 這個專案是我當年用Python練手寫的,以現在的程度再來回顧,邏輯不夠嚴謹,各類功能太過耦合,不少段落需要重寫,因為代碼是在校園網內所跑,所以還需要考慮到網絡連接的穩定性,這就造成部分代碼之間的混亂關係。

透過icanhazip.com來偵測代理匿名性的方法或許有效,但卻忽略了X-Forwarded-For的HTTP頭,所以有很大風險,必須改進。

驗證代理池內代理程式的有效性,需要多線程,目前的方案效率太低。

完整程式碼

放在此文章中的是代理池的核心程式碼,旨在提供各位讀者能夠自己實現的思路及參考,Ubuntu 16.04及Kali下用Python 2.7測試可運行。

以上是如何用Python搭建匿名代理池?搭建匿名代理池的方法的詳細內容。更多資訊請關注PHP中文網其他相關文章!

相關標籤:
來源:cnblogs.com
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板