Beispiel für einen automatischen IP-Proxy in der Python-Crawling-Technologie-Python-Tutorial-php.cn

Heim

Backend-Entwicklung

Python-Tutorial

Beispiel für einen automatischen IP-Proxy in der Python-Crawling-Technologie

Y2J

Apr 21, 2017 pm 03:22 PM

python 爬取

Vor kurzem habe ich vor, weiche Prüfungsfragen für die Prüfung zu crawlen. Beim Crawlen sind einige Probleme aufgetreten. Der folgende Artikel stellt hauptsächlich die Verwendung von Python zum Crawlen weicher Prüfungsfragen und die relevanten Informationen des automatischen IP-Proxys vor. Der Artikel stellt es ausführlich vor. Freunde, die es brauchen, können unten einen Blick darauf werfen.

Vorwort

Zur besseren Prüfung und Vorbereitung gibt es seit Kurzem eine Prüfung auf Software-Professional-Ebene, im Folgenden als Soft-Prüfung bezeichnet Für die Prüfung habe ich vor, www.Soft-Testfragen auf rkpass.cn zu besorgen.

Lassen Sie mich zunächst die Geschichte (keng) erzählen, wie ich die weichen Prüfungsfragen gecrawlt habe. Jetzt kann ich automatisch alle Fragen in einem bestimmten Modul erfassen, wie unten gezeigt:

Beispiel für einen automatischen IP-Proxy in der Python-Crawling-Technologie

Derzeit kann ich alle 30 Testfragendatensätze des Informationssystem-Supervisors erfassen ist wie unten dargestellt:

Beispiel für einen automatischen IP-Proxy in der Python-Crawling-Technologie

Das erfasste Inhaltsbild:

Beispiel für einen automatischen IP-Proxy in der Python-Crawling-Technologie

Es können zwar einige Informationen erfasst werden, jedoch die Qualität Der Code ist nicht hoch. Da das Ziel klar ist und die Parameter klar sind, habe ich gestern keine Ausnahmebehandlung durchgeführt Ich habe nachts lange Zeit das Loch zugeschüttet.

Zurück zum Thema, ich schreibe heute diesen Blog, weil ich auf eine neue Falle gestoßen bin. Aus dem Titel des Artikels können wir schließen, dass es zu viele Anfragen gegeben haben muss, sodass die IP durch den Anti-Crawler-Mechanismus der Website blockiert wurde.

Beispiel für einen automatischen IP-Proxy in der Python-Crawling-Technologie

Ein lebender Mensch kann nicht an Urin sterben. Die Taten unserer revolutionären Vorfahren sagen uns, dass wir als Nachfolger des Sozialismus nicht den Schwierigkeiten nachgeben, Straßen über Berge öffnen und bauen können Brücken über Flüsse: Um das IP-Problem zu lösen, entstand die Idee eines IP-Proxys.

Wenn während der Erfassung von Informationen durch Webcrawler die Crawling-Häufigkeit den festgelegten Schwellenwert der Website überschreitet, wird der Zugriff gesperrt. Normalerweise identifiziert der Anti-Crawler-Mechanismus der Website Crawler anhand der IP.

Daher müssen Crawler-Entwickler normalerweise zwei Methoden anwenden, um dieses Problem zu lösen:

1 Verlangsamen Sie die Crawling-Geschwindigkeit und reduzieren Sie sie der Druck auf die Zielwebsite. Dadurch wird jedoch die Crawling-Menge pro Zeiteinheit reduziert.

2. Die zweite Methode besteht darin, den Anti-Crawler-Mechanismus zu durchbrechen und das Hochfrequenz-Crawling fortzusetzen, indem Proxy-IP und andere Mittel festgelegt werden. Dies erfordert jedoch mehrere stabile Proxy-IPs.

Da gibt es nicht viel zu sagen, gehen wir direkt zum Code:

# IP地址取自国内髙匿代理IP网站：www.xicidaili.com/nn/
# 仅仅爬取首页IP地址就足够一般使用
from bs4 import BeautifulSoup
import requests
import random

#获取当前页面上的ip
def get_ip_list(url, headers):
 web_data = requests.get(url, headers=headers)
 soup = BeautifulSoup(web_data.text)
 ips = soup.find_all(&#39;tr&#39;)
 ip_list = []
 for i in range(1, len(ips)):
 ip_info = ips[i]
 tds = ip_info.find_all(&#39;td&#39;)
 ip_list.append(tds[1].text + &#39;:&#39; + tds[2].text)
 return ip_list

#从抓取到的Ip中随机获取一个ip
def get_random_ip(ip_list):
 proxy_list = []
 for ip in ip_list:
 proxy_list.append(&#39;http://&#39; + ip)
 proxy_ip = random.choice(proxy_list)
 proxies = {&#39;http&#39;: proxy_ip}
 return proxies

#国内高匿代理IP网主地址
url = &#39;http://www.xicidaili.com/nn/&#39;
#请求头
headers = {&#39;User-Agent&#39;: &#39;Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36&#39;}
#计数器，根据计数器来循环抓取所有页面的ip
num = 0
#创建一个数组，将捕捉到的ip存放到数组
ip_array = []
while num < 1537:
 num += 1
 ip_list = get_ip_list(url+str(num), headers=headers)
 ip_array.append(ip_list)
for ip in ip_array:
 print(ip)
#创建随机数，随机取到一个ip
# proxies = get_random_ip(ip_list)
# print(proxies)

Nach dem Login kopieren

Screenshot der Laufergebnisse:

Beispiel für einen automatischen IP-Proxy in der Python-Crawling-Technologie

Hier Wenn der Crawler eine Anfrage stellt, kann durch Festlegen der Anforderungs-IP auf automatische IP das einfache Blockieren und die feste IP im Anti-Crawler-Mechanismus effektiv vermieden werden.

---------------- ------ -------------------------------------------- ------ ---------------------------------------

Für die Stabilität der Website sollte jeder die Geschwindigkeit des Crawlers unter Kontrolle halten, schließlich ist es auch für Webmaster nicht einfach. Der Test in diesem Artikel erfasste nur 17 Seiten mit IPs.

Zusammenfassung

Das obige ist der detaillierte Inhalt vonBeispiel für einen automatischen IP-Proxy in der Python-Crawling-Technologie. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Beste grafische Einstellungen

4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Seashell Riddle -Lösung

2 Wochen vor By DDD

R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können

4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Wie man alles in Myrise freischaltet

1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7517

CakePHP-Tutorial

1378

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten

Related knowledge

So verwenden Sie Debian Apache -Protokolle, um die Website der Website zu verbessern Apr 12, 2025 pm 11:36 PM

In diesem Artikel wird erläutert, wie die Leistung der Website verbessert wird, indem Apache -Protokolle im Debian -System analysiert werden. 1. Log -Analyse -Basics Apache Protokoll Datensätze Die detaillierten Informationen aller HTTP -Anforderungen, einschließlich IP -Adresse, Zeitstempel, URL, HTTP -Methode und Antwortcode. In Debian -Systemen befinden sich diese Protokolle normalerweise in /var/log/apache2/access.log und /var/log/apache2/error.log verzeichnis. Das Verständnis der Protokollstruktur ist der erste Schritt in der effektiven Analyse. 2. Tool mit Protokollanalyse Mit einer Vielzahl von Tools können Apache -Protokolle analysiert: Befehlszeilen -Tools: GREP, AWK, SED und andere Befehlszeilen -Tools.

Python: Spiele, GUIs und mehr Apr 13, 2025 am 12:14 AM

Python zeichnet sich in Gaming und GUI -Entwicklung aus. 1) Spielentwicklung verwendet Pygame, die Zeichnungen, Audio- und andere Funktionen bereitstellt, die für die Erstellung von 2D -Spielen geeignet sind. 2) Die GUI -Entwicklung kann Tkinter oder Pyqt auswählen. Tkinter ist einfach und einfach zu bedienen. PYQT hat reichhaltige Funktionen und ist für die berufliche Entwicklung geeignet.

PHP und Python: Vergleich von zwei beliebten Programmiersprachen Apr 14, 2025 am 12:13 AM

PHP und Python haben jeweils ihre eigenen Vorteile und wählen nach den Projektanforderungen. 1.PHP ist für die Webentwicklung geeignet, insbesondere für die schnelle Entwicklung und Wartung von Websites. 2. Python eignet sich für Datenwissenschaft, maschinelles Lernen und künstliche Intelligenz mit prägnanter Syntax und für Anfänger.

Die Rolle von Debian Sniffer bei der DDOS -Angriffserkennung Apr 12, 2025 pm 10:42 PM

In diesem Artikel wird die DDOS -Angriffserkennungsmethode erörtert. Obwohl kein direkter Antragsfall von "Debiansniffer" gefunden wurde, können die folgenden Methoden zur Erkennung von DDOS -Angriffsanfällen verwendet werden: Effektive DDOS -Angriffserkennungstechnologie: Erkennung auf der Grundlage der Verkehrsanalyse: Identifizierung von DDOS -Angriffen durch Überwachung abnormaler Muster des Netzwerkverkehrs, z. Beispielsweise können Python -Skripte in Kombination mit Pyshark- und Colorama -Bibliotheken den Netzwerkverkehr in Echtzeit überwachen und Warnungen ausstellen. Erkennung auf der Grundlage der statistischen Analyse: Durch Analyse statistischer Merkmale des Netzwerkverkehrs wie Daten

Nginx SSL -Zertifikat -Aktualisierung Debian Tutorial Apr 13, 2025 am 07:21 AM

In diesem Artikel werden Sie begleitet, wie Sie Ihr NginXSSL -Zertifikat auf Ihrem Debian -System aktualisieren. Schritt 1: Installieren Sie zuerst CertBot und stellen Sie sicher, dass Ihr System Certbot- und Python3-CertBot-Nginx-Pakete installiert hat. If not installed, please execute the following command: sudoapt-getupdatesudoapt-getinstallcertbotpython3-certbot-nginx Step 2: Obtain and configure the certificate Use the certbot command to obtain the Let'sEncrypt certificate and configure Nginx: sudocertbot--nginx Follow the prompts to select

Wie Debian Readdir sich in andere Tools integriert Apr 13, 2025 am 09:42 AM

Die Readdir -Funktion im Debian -System ist ein Systemaufruf, der zum Lesen des Verzeichnisgehalts verwendet wird und häufig in der C -Programmierung verwendet wird. In diesem Artikel wird erläutert, wie Readdir in andere Tools integriert wird, um seine Funktionalität zu verbessern. Methode 1: Kombinieren Sie C -Sprachprogramm und Pipeline zuerst ein C -Programm, um die Funktion der Readdir aufzurufen und das Ergebnis auszugeben:#include#include#includeIntmain (intargc, char*argv []) {Dir*Dir; structDirent*Eintrag; if (argc! = 2) {{

Python und Zeit: Machen Sie das Beste aus Ihrer Studienzeit Apr 14, 2025 am 12:02 AM

Um die Effizienz des Lernens von Python in einer begrenzten Zeit zu maximieren, können Sie Pythons DateTime-, Zeit- und Zeitplanmodule verwenden. 1. Das DateTime -Modul wird verwendet, um die Lernzeit aufzuzeichnen und zu planen. 2. Das Zeitmodul hilft, die Studie zu setzen und Zeit zu ruhen. 3. Das Zeitplanmodul arrangiert automatisch wöchentliche Lernaufgaben.

So konfigurieren Sie den HTTPS -Server in Debian OpenSSL Apr 13, 2025 am 11:03 AM

Das Konfigurieren eines HTTPS -Servers auf einem Debian -System umfasst mehrere Schritte, einschließlich der Installation der erforderlichen Software, der Generierung eines SSL -Zertifikats und der Konfiguration eines Webservers (z. B. Apache oder NGINX) für die Verwendung eines SSL -Zertifikats. Hier ist eine grundlegende Anleitung unter der Annahme, dass Sie einen Apacheweb -Server verwenden. 1. Installieren Sie zuerst die erforderliche Software, stellen Sie sicher, dass Ihr System auf dem neuesten Stand ist, und installieren Sie Apache und OpenSSL: sudoaptupdatesudoaptupgradesudoaptinsta

See all articles