Maison développement back-end Tutoriel Python Comment créer un pool de proxy anonyme en utilisant Python ? Comment créer un pool de proxy anonyme

Comment créer un pool de proxy anonyme en utilisant Python ? Comment créer un pool de proxy anonyme

Oct 26, 2018 pm 05:53 PM
python

Le contenu de cet article est de présenter comment utiliser Python pour créer un pool de proxy anonyme ? Comment créer un pool de proxy anonyme. Il a une certaine valeur de référence. Les amis dans le besoin peuvent s'y référer. J'espère qu'il vous sera utile.

J'entends souvent de nombreuses personnes se plaindre que leur adresse IP est bloquée par le site Web en raison d'un trop grand nombre de robots d'exploration, et qu'elles doivent fréquemment utiliser diverses adresses IP proxy, mais comme la plupart des proxys publics sur Internet ne peuvent pas être utilisés, et Vous devez dépenser de l'argent et de l'énergie pour postuler pour un agent VIP, pour ensuite être bloqué après plusieurs rebondissements. Par la présente, écrivez un article sur la façon d'utiliser Python pour créer un pool de proxy afin de réduire les coûts de temps et d'énergie et de réaliser la fonction d'obtention automatique d'adresses IP proxy actives.

Principe de fonctionnement

1. Acquisition de proxy de site Web

1 Grimpez dans la liste IP du site Web proxy gratuit pour tester s'il s'agit d'un site Web proxy gratuit. est disponible et s'il est élevé Anonyme

2 S'ils le sont tous, mettez-les dans la base de données, sinon jetez-les.

3. Répétez l'étape 2

2. Assurez-vous que l'agent défaillant peut être sélectionné dans le pool d'agents dès que possible

1.

Obtenez l'IP de la base de données du robot

2

Testez la disponibilité et l'anonymat de l'IP

3. disponible et anonyme, conservez-le, sinon jetez-le.

4.

Répétez l'étape 1

Instructions ①

: Vous pouvez créer un démon robot, qui a cet aspect Amis qui en ont besoin peuvent le rechercher sur Google par eux-mêmes, je ne le présenterai pas ici.

Explication ②

 : Vous pouvez établir une interface d'informations de proxy externe. Peu importe que vous utilisiez NodeJS ou Flask/Django ou PHP pour l'écrire, je ne la présenterai pas ici. .

Implémentation :

Bibliothèques recommandées : requêtes, BeautifulSoup, re, sqlite3.

Parmi elles, la bibliothèque de requêtes est utilisée pour obtenir la page du site Web de l'agent, les bibliothèques BeautifulSoup et re sont utilisées pour obtenir des informations sur l'agent, et sqlite3 est utilisé pour accéder à ces informations.

Si nécessaire (par exemple lorsque le site Web proxy a une stratégie anti-crawler), PhantomJS peut être utilisé pour remplacer les requêtes, ou la bibliothèque correspondante peut être utilisée pour le nettoyage des données (comme le décodage base64).

Ce qui suit est une brève démonstration de chaque partie du code :

La première consiste à sélectionner plusieurs sites Web qui peuvent explorer les proxys et qui ne sont pas facilement bloqués par IP. Ici, liste de proxys. org est utilisé à titre d'exemple :

Ce qui suit est un simple code de classe de framework de pool de proxy, qui fournit l'ajout, la suppression, la détection de connectivité et la détection d'anonymat de la base de données proxy :
BASE_URL = "https://proxy-list.org/english/index.php?p="


#IP地址及端口的正则

Re_Pattern_IP = re.compile("(.*):")

Re_Pattern_PORT = re.compile(":(.*)")


#网站有11页,所以循环11次获取所有代理IP及端口

for startingURL_Param in range(1,11):

   HTML_ProxyPage = requests.get(BASE_URL+str(startingURL_Param)).content

   soup = bs(HTML_ProxyPage,"html.parser")

   for Raw_ProxyInfo in soup.find_all("ul",{"class":None}):

       #此网站有用Base64简单对代理进行了加密,所以这里对其解码

       ip_port = base64.b64decode(Raw_ProxyInfo.find("li",{"class":"proxy"}).text.replace("Proxy('","").replace("')",""))

       #接下来利用正则从网页数据中提取我们需要的信息

       IP = re.findall(Re_Pattern_IP, ip_port)[0]

       PORT = re.findall(Re_Pattern_PORT, ip_port)[0]

       TYPE = Raw_ProxyInfo.find("li",{"class":"https"}).text
Copier après la connexion

Ce qui suit est la base de données proxy. Le code de pooling pour supprimer les "IP invalides":
class ProxyPool:        

   #初始化爬虫池数据库

   def __init__(self,ProxyPoolDB):

       self.ProxyPoolDB = ProxyPoolDB

       self.conn = sqlite3.connect(self.ProxyPoolDB, isolation_level=None)

       self.cursor = self.conn.cursor()

       self.TB_ProxyPool = "TB_ProxyPool"

       self.cursor.execute("CREATE TABLE IF NOT EXISTS "+self.TB_ProxyPool+"(ip TEXT UNIQUE, port INTEGER, protocol TEXT)")

 

   #添加代理IP进代理池的接口

   def addProxy(self, IP, PORT, PROTOCOL):  

       self.cursor.execute("INSERT OR IGNORE INTO " + self.TB_ProxyPool+"(ip, port, protocol) VALUES (?,?,?)", [IP,PORT,PROTOCOL])

 

   #检查代理的匿名性及可连接性

   def testConnection(self, IP, PORT, PROTOCOL):

       proxies = { PROTOCOL: IP+":"+PORT }

       try:

           OrigionalIP = requests.get("http://icanhazip.com",timeout=REQ_TIMEOUT).content

           MaskedIP = requests.get("http://icanhazip.com", timeout=REQ_TIMEOUT,proxies=proxies).content

           if OrigionalIP != MaskedIP:

               return True

           else:

               return False

       except:    

           return False

 

   #删除代理IP对应的数据库记录

   def delRecord(self, IP):

       self.cursor.execute("DELETE FROM "+self.TB_ProxyPool+" WHERE ip=?",(IP,))
Copier après la connexion

#循环代理池,逐行测试IP地址端口协议是否可用

def cleanNonWorking(self):

   for info in self.cursor.execute("SELECT * FROM "+self.TB_ProxyPool).fetchall():

       IP = info[0]

       PORT = str(info[1])

       PROTOCOL = info[2].lower()

 

       isAnonymous = self.testConnection(IP,PORT,PROTOCOL)

       if isAnonymous == False:

           #这条代理的可用性失效了,从数据库里删除

           self.delRecord(IP)

 

#通过检测icanhazip.com回显来检测可用性及匿名性

def testConnection(self, IP, PORT, PROTOCOL):

       proxies = { PROTOCOL: IP+":"+PORT }

       try:

           OrigionalIP = requests.get("http://icanhazip.com",timeout=REQ_TIMEOUT).content

           MaskedIP = requests.get("http://icanhazip.com", timeout=REQ_TIMEOUT,proxies=proxies).content

           if OrigionalIP != MaskedIP:

               return True

           else:

               return False

       except:    

           return False
Copier après la connexion
Reflection


Ce projet était lorsque j'utilisais Python pour pratiquer l'écriture manuscrite, en y repensant au niveau actuel, la logique n'est pas assez rigoureuse, les différentes fonctions sont trop couplées et de nombreux paragraphes doivent être réécrits car le code est exécuté. le réseau du campus, la stabilité de la connexion réseau doit également être prise en compte. Cela provoque des relations confuses entre les parties du code.

La méthode de détection de l'anonymat du proxy via icanhazip.com peut être efficace, mais elle ignore l'en-tête HTTP X-Forwarded-For, elle est donc très risquée et doit être améliorée.

Vérifier la validité des agents dans le pool d'agents nécessite du multi-threading, et la solution actuelle est trop inefficace.

Code complet

Le code de base du pool de proxy est placé dans cet article, dans le but de fournir aux lecteurs des idées et des références pour leur propre implémentation, Ubuntu 16.04 et Kali Le test peut être exécuté avec Python 2.7.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Python vs JavaScript: communauté, bibliothèques et ressources Python vs JavaScript: communauté, bibliothèques et ressources Apr 15, 2025 am 12:16 AM

Python et JavaScript ont leurs propres avantages et inconvénients en termes de communauté, de bibliothèques et de ressources. 1) La communauté Python est amicale et adaptée aux débutants, mais les ressources de développement frontal ne sont pas aussi riches que JavaScript. 2) Python est puissant dans les bibliothèques de science des données et d'apprentissage automatique, tandis que JavaScript est meilleur dans les bibliothèques et les cadres de développement frontaux. 3) Les deux ont des ressources d'apprentissage riches, mais Python convient pour commencer par des documents officiels, tandis que JavaScript est meilleur avec MDNWEBDOCS. Le choix doit être basé sur les besoins du projet et les intérêts personnels.

Comment exécuter des programmes dans Terminal Vscode Comment exécuter des programmes dans Terminal Vscode Apr 15, 2025 pm 06:42 PM

Dans VS Code, vous pouvez exécuter le programme dans le terminal via les étapes suivantes: Préparez le code et ouvrez le terminal intégré pour vous assurer que le répertoire de code est cohérent avec le répertoire de travail du terminal. Sélectionnez la commande Run en fonction du langage de programmation (tel que Python de Python your_file_name.py) pour vérifier s'il s'exécute avec succès et résoudre les erreurs. Utilisez le débogueur pour améliorer l'efficacité du débogage.

Le code Visual Studio peut-il être utilisé dans Python Le code Visual Studio peut-il être utilisé dans Python Apr 15, 2025 pm 08:18 PM

VS Code peut être utilisé pour écrire Python et fournit de nombreuses fonctionnalités qui en font un outil idéal pour développer des applications Python. Il permet aux utilisateurs de: installer des extensions Python pour obtenir des fonctions telles que la réalisation du code, la mise en évidence de la syntaxe et le débogage. Utilisez le débogueur pour suivre le code étape par étape, trouver et corriger les erreurs. Intégrez Git pour le contrôle de version. Utilisez des outils de mise en forme de code pour maintenir la cohérence du code. Utilisez l'outil de liaison pour repérer les problèmes potentiels à l'avance.

L'extension VScode est-elle malveillante? L'extension VScode est-elle malveillante? Apr 15, 2025 pm 07:57 PM

Les extensions de code vs posent des risques malveillants, tels que la cachette de code malveillant, l'exploitation des vulnérabilités et la masturbation comme des extensions légitimes. Les méthodes pour identifier les extensions malveillantes comprennent: la vérification des éditeurs, la lecture des commentaires, la vérification du code et l'installation avec prudence. Les mesures de sécurité comprennent également: la sensibilisation à la sécurité, les bonnes habitudes, les mises à jour régulières et les logiciels antivirus.

Peut-on exécuter le code sous Windows 8 Peut-on exécuter le code sous Windows 8 Apr 15, 2025 pm 07:24 PM

VS Code peut fonctionner sur Windows 8, mais l'expérience peut ne pas être excellente. Assurez-vous d'abord que le système a été mis à jour sur le dernier correctif, puis téléchargez le package d'installation VS Code qui correspond à l'architecture du système et l'installez comme invité. Après l'installation, sachez que certaines extensions peuvent être incompatibles avec Windows 8 et doivent rechercher des extensions alternatives ou utiliser de nouveaux systèmes Windows dans une machine virtuelle. Installez les extensions nécessaires pour vérifier si elles fonctionnent correctement. Bien que le code VS soit possible sur Windows 8, il est recommandé de passer à un système Windows plus récent pour une meilleure expérience de développement et une meilleure sécurité.

Python: automatisation, script et gestion des tâches Python: automatisation, script et gestion des tâches Apr 16, 2025 am 12:14 AM

Python excelle dans l'automatisation, les scripts et la gestion des tâches. 1) Automatisation: La sauvegarde du fichier est réalisée via des bibliothèques standard telles que le système d'exploitation et la fermeture. 2) Écriture de script: utilisez la bibliothèque PSUTIL pour surveiller les ressources système. 3) Gestion des tâches: utilisez la bibliothèque de planification pour planifier les tâches. La facilité d'utilisation de Python et la prise en charge de la bibliothèque riche en font l'outil préféré dans ces domaines.

Qu'est-ce que VScode pour quoi est VScode? Qu'est-ce que VScode pour quoi est VScode? Apr 15, 2025 pm 06:45 PM

VS Code est le code Visual Studio Nom complet, qui est un éditeur de code multiplateforme gratuit et open source et un environnement de développement développé par Microsoft. Il prend en charge un large éventail de langages de programmation et fournit une mise en surbrillance de syntaxe, une complétion automatique du code, des extraits de code et des invites intelligentes pour améliorer l'efficacité de développement. Grâce à un écosystème d'extension riche, les utilisateurs peuvent ajouter des extensions à des besoins et des langues spécifiques, tels que les débogueurs, les outils de mise en forme de code et les intégrations GIT. VS Code comprend également un débogueur intuitif qui aide à trouver et à résoudre rapidement les bogues dans votre code.

Peut vs code exécuter python Peut vs code exécuter python Apr 15, 2025 pm 08:21 PM

Oui, le code vs peut exécuter le code Python. Pour exécuter Python efficacement dans le code vs, effectuez les étapes suivantes: Installez l'interprète Python et configurez les variables d'environnement. Installez l'extension Python dans le code vs. Exécutez le code Python dans le terminal de VS Code via la ligne de commande. Utilisez les capacités de débogage de VS Code et la mise en forme du code pour améliorer l'efficacité du développement. Adoptez de bonnes habitudes de programmation et utilisez des outils d'analyse des performances pour optimiser les performances du code.

See all articles