So richten Sie einen Proxy für den Python-Crawler ein-Python-Tutorial-php.cn

Heim

Backend-Entwicklung

Python-Tutorial

So richten Sie einen Proxy für den Python-Crawler ein

爱喝马黛茶的安东尼

Jun 13, 2019 pm 04:58 PM

python 代理爬虫

Einige Websites verfügen über entsprechende Anti-Crawler-Maßnahmen. Viele Websites erkennen beispielsweise die Anzahl der Besuche einer bestimmten IP in einem bestimmten Zeitraum, wenn die Besuchshäufigkeit zu hoch ist und nicht wie ein normaler Besucher aussieht , es kann den IP-Besuch verbieten. Daher müssen wir von Zeit zu Zeit einige Proxyserver einrichten und den Proxy ändern. Auch wenn die IP gesperrt ist, können Sie die IP trotzdem ändern und mit dem Crawlen fortfahren.

So richten Sie einen Proxy für den Python-Crawler ein

In Python können Sie den ProxyHandler in urllib2 verwenden, um einen Proxyserver einzurichten. Der folgende Code erklärt, wie der Proxy verwendet wird:

import urllib2
# 构建了两个代理Handler，一个有代理IP，一个没有代理IP
httpproxy_handler = urllib2.ProxyHandler({"http" : "124.88.67.81:80"})
nullproxy_handler = urllib2.ProxyHandler({})
#定义一个代理开关
proxySwitch = True 
# 通过 urllib2.build_opener()方法使用这些代理Handler对象，创建自定义opener对象
# 根据代理开关是否打开，使用不同的代理模式
if proxySwitch:  
    opener = urllib2.build_opener(httpproxy_handler)
else:
    opener = urllib2.build_opener(nullproxy_handler)
request = urllib2.Request("http://www.baidu.com/")
# 使用opener.open()方法发送请求才使用自定义的代理，而urlopen()则不使用自定义代理。
response = opener.open(request)
# 就是将opener应用到全局，之后所有的，不管是opener.open()还是urlopen() 发送请求，都将使用自定义代理。
# urllib2.install_opener(opener)
# response = urlopen(request)
print response.read()

Nach dem Login kopieren

Verwendet oben Es handelt sich um einen kostenlosen offenen Proxy. Wenn er nach dem Testen verwendet werden kann, werden wir ihn sammeln und auf dem Crawler verwenden.

Verwandte Empfehlungen: „Python-Video-Tutorial“

Kostenlose Proxy-Website:

Western Spurs kostenloser Proxy

Schneller Proxy, kostenloser Proxy

Nationale Proxy-IP

Wenn Sie über genügend Proxys verfügen, können Sie diese in eine Liste aufnehmen und zufällig einen Proxy auswählen, um auf die Website zuzugreifen. Wie folgt:

import urllib2
import random
proxy_list = [
    {"http" : "124.88.67.81:80"},
    {"http" : "124.88.67.81:80"},
    {"http" : "124.88.67.81:80"},
    {"http" : "124.88.67.81:80"},
    {"http" : "124.88.67.81:80"}
]
# 随机选择一个代理
proxy = random.choice(proxy_list)
# 使用选择的代理构建代理处理器对象
httpproxy_handler = urllib2.ProxyHandler(proxy)
opener = urllib2.build_opener(httpproxy_handler)
request = urllib2.Request("http://www.baidu.com/")
response = opener.open(request)
print response.read()

Nach dem Login kopieren

Die oben genannten sind alle kostenlosen Proxys, die nicht sehr stabil sind und oft nicht verwendet werden können. Zu diesem Zeitpunkt können Sie die Verwendung eines privaten Proxys in Betracht ziehen. Das heißt, der Anbieter stellt einem gültigen Agenten seinen eigenen Benutzernamen und sein eigenes Passwort zur Verfügung. Die spezifische Verwendung ist die gleiche wie bei einem kostenlosen Agenten, wie folgt.

# 构建具有一个私密代理IP的Handler，其中user为账户，passwd为密码
httpproxy_handler = urllib2.ProxyHandler({"http" : "user：passwd@124.88.67.81:80"})

Nach dem Login kopieren

Die oben beschriebene Methode zum Einrichten eines Proxys mit urllib2 scheint etwas mühsam zu sein. Sehen wir uns an, wie man Anforderungen zur Verwendung des Proxys verwendet.

Kostenlosen Proxy verwenden:

import requests
# 如果代理需要使用HTTP Basic Auth，可以使用下面这种格式：
proxy = { "http": "mr_mao_hacker:sffqry9r@61.158.163.130:16816" }
response = requests.get("http://www.baidu.com", proxies = proxy)
print response.text

Nach dem Login kopieren

Hinweis: Sie können das Kontopasswort in Umgebungsvariablen schreiben, um Lecks zu vermeiden

Das obige ist der detaillierte Inhalt vonSo richten Sie einen Proxy für den Python-Crawler ein. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

2 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Repo: Wie man Teamkollegen wiederbelebt

4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Hello Kitty Island Abenteuer: Wie man riesige Samen bekommt

4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Wie lange dauert es, um Split Fiction zu schlagen?

3 Wochen vor By DDD

R.E.P.O. Dateispeicherspeicherort: Wo ist es und wie schützt sie?

3 Wochen vor By DDD

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7322

Java-Tutorial

1625

CakePHP-Tutorial

1350

Laravel-Tutorial

1262

PHP-Tutorial

1209

Related knowledge

Wie kann man Node.js oder Python -Dienste in Lampenarchitektur effizient integrieren? Apr 01, 2025 pm 02:48 PM

Viele Website -Entwickler stehen vor dem Problem der Integration von Node.js oder Python Services unter der Lampenarchitektur: Die vorhandene Lampe (Linux Apache MySQL PHP) Architekturwebsite benötigt ...

Wie löste ich das Problem der Berechtigungen beim Betrachten der Python -Version in Linux Terminal? Apr 01, 2025 pm 05:09 PM

Lösung für Erlaubnisprobleme beim Betrachten der Python -Version in Linux Terminal Wenn Sie versuchen, die Python -Version in Linux Terminal anzuzeigen, geben Sie Python ein ...

Was ist der Grund, warum Pipeline persistente Speicherdateien bei der Verwendung von Scapy Crawler nicht geschrieben werden kann? Apr 01, 2025 pm 04:03 PM

Bei der Verwendung von Scapy Crawler kann der Grund, warum Pipeline persistente Speicherdateien nicht geschrieben werden kann? Diskussion beim Lernen, Scapy Crawler für Data Crawler zu verwenden, begegnen Sie häufig auf eine ...

Python Hourglass Graph Drawing: Wie vermeiden Sie variable undefinierte Fehler? Apr 01, 2025 pm 06:27 PM

Erste Schritte mit Python: Hourglas -Grafikzeichnung und Eingabeüberprüfung In diesem Artikel wird das Problem der Variablendefinition gelöst, das von einem Python -Anfänger im Hourglass -Grafikzeichnungsprogramm auftritt. Code...

Was ist der Grund, warum der Python -Prozesspool gleichzeitige TCP -Anfragen behandelt und den Kunden dazu bringt, stecken zu bleiben? Apr 01, 2025 pm 04:09 PM

Python Process Pool verarbeitet gleichzeitige TCP -Anfragen, die dazu führen, dass der Client stecken bleibt. Bei der Verwendung von Python für die Netzwerkprogrammierung ist es entscheidend, gleichzeitige TCP -Anforderungen effizient zu verarbeiten. ...

Wie kann ich die ursprünglichen Funktionen betrachten, die von Python Functools.Partial Object in intern eingekapselt sind? Apr 01, 2025 pm 04:15 PM

Erforschen Sie tief die Betrachtungsmethode von Python Functools.Partialial Object in functools.Partial mit Python ...

Python Cross-Platform Desktop-Anwendungsentwicklung: Welche GUI-Bibliothek ist die beste für Sie? Apr 01, 2025 pm 05:24 PM

Auswahl der Python-plattformübergreifenden Desktop-Anwendungsentwicklungsbibliothek Viele Python-Entwickler möchten Desktop-Anwendungen entwickeln, die sowohl auf Windows- als auch auf Linux-Systemen ausgeführt werden können ...

Wie kann ich die gesamte Spalte eines Datenrahmens effizient in einen anderen Datenrahmen mit verschiedenen Strukturen in Python kopieren? Apr 01, 2025 pm 11:15 PM

Bei der Verwendung von Pythons Pandas -Bibliothek ist das Kopieren von ganzen Spalten zwischen zwei Datenrahmen mit unterschiedlichen Strukturen ein häufiges Problem. Angenommen, wir haben zwei Daten ...

See all articles