這篇文章帶給大家的內容是介紹如何用Python搭建匿名代理池?搭建匿名代理池的方法。有一定的參考價值,有需要的朋友可以參考一下,希望對你們有幫助。
常聽到很多人抱怨自己的IP因爬蟲次數太多而被網站屏蔽,不得不頻繁使用各種代理IP,卻又因為網上的公開代理大部分都是不能使用,而又要花錢花精力申請VIP代理,幾番波折又被封鎖。特此寫一篇如何利用Python搭建代理池的文章,以降低時間及精力成本,實現自動化取得活躍代理IP的功能。
運作原理
一、網站代理取得
#1. 爬免費代理網站的IP清單測試是否可用及是否為高匿
2. 若都是,則放進資料庫,否則丟棄。
#3. 重複第2步驟
二、保證失效的代理能盡快從代理池中挑出
#1. 從爬蟲資料庫取得IP
2. 測試IP的可用性和匿名性
3. 如果可用且匿名,則保留如果可用且匿名,則保留如果可用且匿名,則保留,否則丟棄。
4. 重複第1步驟
說明①:可建立一個爬蟲程式守護程序(Daemon),並有此方面需要的小夥伴可自行谷歌,在此不多做介紹。
說明②:可建立一個對外代理資訊接口,無論你用NodeJS或Flask/Django或PHP來寫都沒關係,在此也不多做介紹。
實作:
建議函式庫: requests, BeautifulSoup, re, sqlite3。
其中,用requests庫獲取代理網站頁面,用BeautifulSoup和re兩庫來進行代理資訊獲取,用sqlite3來對這些資訊進行訪問。
若有必要(如代理網站有反爬蟲策略時),可用PhantomJS取代requests,或以對應函式庫進行資料清理(如base64解碼)。
下面簡單展示一下各部分的程式碼:
首先是選擇多個能爬取代理且不容易被屏蔽IP的網站,此處以proxy-list.org為例:
BASE_URL = "https://proxy-list.org/english/index.php?p=" #IP地址及端口的正则 Re_Pattern_IP = re.compile("(.*):") Re_Pattern_PORT = re.compile(":(.*)") #网站有11页,所以循环11次获取所有代理IP及端口 for startingURL_Param in range(1,11): HTML_ProxyPage = requests.get(BASE_URL+str(startingURL_Param)).content soup = bs(HTML_ProxyPage,"html.parser") for Raw_ProxyInfo in soup.find_all("ul",{"class":None}): #此网站有用Base64简单对代理进行了加密,所以这里对其解码 ip_port = base64.b64decode(Raw_ProxyInfo.find("li",{"class":"proxy"}).text.replace("Proxy('","").replace("')","")) #接下来利用正则从网页数据中提取我们需要的信息 IP = re.findall(Re_Pattern_IP, ip_port)[0] PORT = re.findall(Re_Pattern_PORT, ip_port)[0] TYPE = Raw_ProxyInfo.find("li",{"class":"https"}).text
接下來是一段簡易代理池框架類別的程式碼,提供代理資料庫的新增、刪除、可連接性檢測、匿名性檢測:
class ProxyPool: #初始化爬虫池数据库 def __init__(self,ProxyPoolDB): self.ProxyPoolDB = ProxyPoolDB self.conn = sqlite3.connect(self.ProxyPoolDB, isolation_level=None) self.cursor = self.conn.cursor() self.TB_ProxyPool = "TB_ProxyPool" self.cursor.execute("CREATE TABLE IF NOT EXISTS "+self.TB_ProxyPool+"(ip TEXT UNIQUE, port INTEGER, protocol TEXT)") #添加代理IP进代理池的接口 def addProxy(self, IP, PORT, PROTOCOL): self.cursor.execute("INSERT OR IGNORE INTO " + self.TB_ProxyPool+"(ip, port, protocol) VALUES (?,?,?)", [IP,PORT,PROTOCOL]) #检查代理的匿名性及可连接性 def testConnection(self, IP, PORT, PROTOCOL): proxies = { PROTOCOL: IP+":"+PORT } try: OrigionalIP = requests.get("http://icanhazip.com",timeout=REQ_TIMEOUT).content MaskedIP = requests.get("http://icanhazip.com", timeout=REQ_TIMEOUT,proxies=proxies).content if OrigionalIP != MaskedIP: return True else: return False except: return False #删除代理IP对应的数据库记录 def delRecord(self, IP): self.cursor.execute("DELETE FROM "+self.TB_ProxyPool+" WHERE ip=?",(IP,))
下面是對代理池進行去“失效IP」的程式碼:
#循环代理池,逐行测试IP地址端口协议是否可用 def cleanNonWorking(self): for info in self.cursor.execute("SELECT * FROM "+self.TB_ProxyPool).fetchall(): IP = info[0] PORT = str(info[1]) PROTOCOL = info[2].lower() isAnonymous = self.testConnection(IP,PORT,PROTOCOL) if isAnonymous == False: #这条代理的可用性失效了,从数据库里删除 self.delRecord(IP) #通过检测icanhazip.com回显来检测可用性及匿名性 def testConnection(self, IP, PORT, PROTOCOL): proxies = { PROTOCOL: IP+":"+PORT } try: OrigionalIP = requests.get("http://icanhazip.com",timeout=REQ_TIMEOUT).content MaskedIP = requests.get("http://icanhazip.com", timeout=REQ_TIMEOUT,proxies=proxies).content if OrigionalIP != MaskedIP: return True else: return False except: return False
#反射
這個專案是我當年用Python練手寫的,以現在的程度再來回顧,邏輯不夠嚴謹,各類功能太過耦合,不少段落需要重寫,因為代碼是在校園網內所跑,所以還需要考慮到網絡連接的穩定性,這就造成部分代碼之間的混亂關係。
透過icanhazip.com來偵測代理匿名性的方法或許有效,但卻忽略了X-Forwarded-For的HTTP頭,所以有很大風險,必須改進。
驗證代理池內代理程式的有效性,需要多線程,目前的方案效率太低。
完整程式碼
放在此文章中的是代理池的核心程式碼,旨在提供各位讀者能夠自己實現的思路及參考,Ubuntu 16.04及Kali下用Python 2.7測試可運行。
以上是如何用Python搭建匿名代理池?搭建匿名代理池的方法的詳細內容。更多資訊請關注PHP中文網其他相關文章!