


Vertiefendes Verständnis der Prinzipien des verteilten Python-Crawlers
Die Kolumne „Python-Video-Tutorial“ stellt das Prinzip des verteilten Crawlers vor.
Kostenlose Empfehlung:
Python-Video-TutorialSchauen wir uns zunächst an, wie man Webinhalte erhält, wenn es sich um normales menschliches Verhalten handelt.
(1) Öffnen Sie den Browser, geben Sie die URL ein und öffnen Sie die Quellwebseite
(2) Wählen Sie den gewünschten Inhalt aus, einschließlich Titel, Autor, Zusammenfassung, Text und anderen Informationen
(3) Speichern Sie ihn auf der Festplatte
Wir verwenden Python, um ein einfaches Programm zu schreiben, um die obige einfache Grabbing-Funktion zu implementieren.
#!/usr/bin/python #-*- coding: utf-8 -*- ''''' Created on 2014-03-16 @author: Kris ''' import urllib2, re, cookielib def httpCrawler(url): ''''' @summary: 网页抓取 ''' content = httpRequest(url) title = parseHtml(content) saveData(title) def httpRequest(url): ''''' @summary: 网络请求 ''' try: ret = None SockFile = None request = urllib2.Request(url) request.add_header('User-Agent', 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; SV1; .NET CLR 1.1.4322)') request.add_header('Pragma', 'no-cache') opener = urllib2.build_opener() SockFile = opener.open(request) ret = SockFile.read() finally: if SockFile: SockFile.close() return ret def parseHtml(html): ''''' @summary: 抓取结构化数据 ''' content = None pattern = '<title>([^<]*?)</title>' temp = re.findall(pattern, html) if temp: content = temp[0] return content def saveData(data): ''''' @summary: 数据存储 ''' f = open('test', 'wb') f.write(data) f.close() if __name__ == '__main__': url = 'http://www.baidu.com' httpCrawler(url)
(1) Der Zugriff auf Cookie-Informationen erfordert beispielsweise grundsätzlich, dass sich Benutzer anmelden, bevor sie die Informationen sehen können Der Wert ist eigentlich sehr einfach. Wir können das von Python bereitgestellte Cookielib-Modul verwenden, um jeden Besuch mit den von der Quellwebsite bereitgestellten Cookie-Informationen zu erreichen. Auf diese Weise können wir die Anmeldung erfolgreich simulieren und der Crawler befindet sich im Anmeldestatus. Dann können wir alle von eingeloggten Benutzern angezeigten Informationen sammeln. Das Folgende ist eine Modifikation der httpRequest()-Methode, die Cookies verwendet:
ckjar = cookielib.MozillaCookieJar() cookies = urllib2.HTTPCookieProcessor(ckjar) #定义cookies对象 def httpRequest(url): ''''' @summary: 网络请求 ''' try: ret = None SockFile = None request = urllib2.Request(url) request.add_header('User-Agent', 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; SV1; .NET CLR 1.1.4322)') request.add_header('Pragma', 'no-cache') opener = urllib2.build_opener(cookies) #传递cookies对象 SockFile = opener.open(request) ret = SockFile.read() finally: if SockFile: SockFile.close() return ret
content = content.decode('gbk', 'ignore') #将gbk编码转为unicode编码 content = content.encode('utf-8', 'ignore') #将unicode编码转为utf-8编码
Ein gutes Erfassungssystem sollte so sein, dass wir unsere Zieldaten, egal wo sie sich befinden, zurückerhalten können, solange sie für den Benutzer sichtbar sind. Die Erfassung der Daten, die Sie sehen, ist das, was Sie erhalten, ist nicht blockiert. Unabhängig davon, ob Daten angemeldet werden müssen oder nicht, kann die Erfassung reibungslos erfolgen. Die meisten wertvollen Informationen erfordern im Allgemeinen eine Anmeldung, um sie anzuzeigen, z. B. soziale Netzwerke. Um die Anmeldung zu bewältigen, muss die Website über ein Crawler-System verfügen, das die Benutzeranmeldung simuliert, um Daten normal abzurufen. Allerdings hoffen soziale Websites, einen geschlossenen Kreislauf zu bilden, und sind nicht bereit, Daten außerhalb der Website zu veröffentlichen. Ein solches System wird für Menschen nicht so offen sein wie Nachrichten und andere Inhalte. Die meisten dieser sozialen Websites unterliegen einigen Einschränkungen, um zu verhindern, dass Roboter-Crawler-Systeme Daten crawlen. Im Allgemeinen dauert es nicht lange, bis ein Konto gecrawlt wird, bevor es erkannt wird und der Zugriff gesperrt wird. Bedeutet das, dass wir die Daten dieser Websites nicht crawlen können? Dies ist definitiv nicht der Fall, solange soziale Websites den Zugriff auf Webseiten nicht sperren, können wir auch auf die Daten zugreifen, auf die normale Menschen zugreifen können. Letztlich handelt es sich um eine Simulation des normalen Verhaltens einer Person, die in der Fachsprache „Anti-Monitoring“ genannt wird.
Für Quellwebsites gelten im Allgemeinen die folgenden Einschränkungen:
1. Die Anzahl der Besuche einer einzelnen IP innerhalb eines bestimmten Zeitraums. Wenn ein normaler Benutzer auf die Website zugreift, wird dies nicht passieren Besuchen Sie eine Website schnell und es wird nicht allzu lange dauern. Dieses Problem lässt sich leicht lösen. Wir können eine große Anzahl unregelmäßiger Proxy-IPs verwenden, um einen Proxy-Pool zu bilden, Proxys zufällig aus dem Proxy-Pool auszuwählen und den Zugriff zu simulieren. Es gibt zwei Arten von Proxy-IPs: transparenter Proxy und anonymer Proxy.
2. Die Anzahl der Besuche auf einem einzelnen Konto innerhalb eines bestimmten Zeitraums. Wenn eine Person 24 Stunden am Tag auf eine Datenschnittstelle zugreift und die Geschwindigkeit sehr hoch ist, handelt es sich möglicherweise um einen Roboter. Wir können eine große Anzahl von Konten mit normalem Verhalten verwenden, und die Anzahl der pro Zeiteinheit besuchten URLs sollte minimiert werden Das Intervall kann ein zufälliger Wert sein, d. h. nach jedem Besuch einer URL wird für einen zufälligen Zeitraum in den Ruhezustand versetzt und dann die nächste URL aufgerufen.
Wenn Sie die Zugriffsrichtlinien des Kontos und der IP steuern können, gibt es im Grunde kein Problem. Natürlich muss die Website des Gegners auch Betriebs- und Wartungsstrategien anpassen. In einem Kampf zwischen dem Feind und uns muss der Crawler erkennen können, dass die Anti-Überwachung der anderen Partei Auswirkungen auf uns hat, und den Administrator benachrichtigen um es rechtzeitig zu bearbeiten. Tatsächlich ist es am idealsten, durch maschinelles Lernen eine Anti-Überwachungs-Konfrontation intelligent implementieren und eine unterbrechungsfreie Erfassung erreichen zu können.
Das Folgende ist ein verteiltes Crawler-Architekturdiagramm, das ich kürzlich entwerfe, wie in Abbildung 1 gezeigt:
Dies ist eine reine bescheidene Arbeit. Die Kommunikation zwischen dem Server und dem Client Es wird hauptsächlich das Socket-Modul von Python verwendet, um die Kommunikation zwischen dem Server und dem Client zu implementieren. Bei Interesse können Sie mich individuell kontaktieren, um eine bessere Lösung zu besprechen und umzusetzen.
Das obige ist der detaillierte Inhalt vonVertiefendes Verständnis der Prinzipien des verteilten Python-Crawlers. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen



Hadidb: Eine leichte, hochrangige skalierbare Python-Datenbank Hadidb (HadIDB) ist eine leichte Datenbank in Python mit einem hohen Maß an Skalierbarkeit. Installieren Sie HadIDB mithilfe der PIP -Installation: PipinstallHadIDB -Benutzerverwaltung erstellen Benutzer: createUser (), um einen neuen Benutzer zu erstellen. Die Authentication () -Methode authentifiziert die Identität des Benutzers. fromHadidb.operationImportUseruser_obj = user ("admin", "admin") user_obj.

Python wird in den Bereichen Webentwicklung, Datenwissenschaft, maschinelles Lernen, Automatisierung und Skripten häufig verwendet. 1) In der Webentwicklung vereinfachen Django und Flask Frameworks den Entwicklungsprozess. 2) In den Bereichen Datenwissenschaft und maschinelles Lernen bieten Numpy-, Pandas-, Scikit-Learn- und TensorFlow-Bibliotheken eine starke Unterstützung. 3) In Bezug auf Automatisierung und Skript ist Python für Aufgaben wie automatisiertes Test und Systemmanagement geeignet.

Sie können grundlegende Programmierkonzepte und Fähigkeiten von Python innerhalb von 2 Stunden lernen. 1. Lernen Sie Variablen und Datentypen, 2. Master Control Flow (bedingte Anweisungen und Schleifen), 3.. Verstehen Sie die Definition und Verwendung von Funktionen, 4. Beginnen Sie schnell mit der Python -Programmierung durch einfache Beispiele und Code -Snippets.

Es ist unmöglich, das MongoDB -Passwort direkt über Navicat anzuzeigen, da es als Hash -Werte gespeichert ist. So rufen Sie verlorene Passwörter ab: 1. Passwörter zurücksetzen; 2. Überprüfen Sie die Konfigurationsdateien (können Hash -Werte enthalten). 3. Überprüfen Sie Codes (May Hardcode -Passwörter).

Als Datenprofi müssen Sie große Datenmengen aus verschiedenen Quellen verarbeiten. Dies kann Herausforderungen für das Datenmanagement und die Analyse darstellen. Glücklicherweise können zwei AWS -Dienste helfen: AWS -Kleber und Amazon Athena.

Die MySQL-Datenbankleistung Optimierungshandbuch In ressourcenintensiven Anwendungen spielt die MySQL-Datenbank eine entscheidende Rolle und ist für die Verwaltung massiver Transaktionen verantwortlich. Mit der Erweiterung der Anwendung werden jedoch die Datenbankleistung Engpässe häufig zu einer Einschränkung. In diesem Artikel werden eine Reihe effektiver Strategien zur Leistungsoptimierung von MySQL -Leistung untersucht, um sicherzustellen, dass Ihre Anwendung unter hohen Lasten effizient und reaktionsschnell bleibt. Wir werden tatsächliche Fälle kombinieren, um eingehende Schlüsseltechnologien wie Indexierung, Abfrageoptimierung, Datenbankdesign und Caching zu erklären. 1. Das Design der Datenbankarchitektur und die optimierte Datenbankarchitektur sind der Eckpfeiler der MySQL -Leistungsoptimierung. Hier sind einige Kernprinzipien: Die Auswahl des richtigen Datentyps und die Auswahl des kleinsten Datentyps, der den Anforderungen entspricht, kann nicht nur Speicherplatz speichern, sondern auch die Datenverarbeitungsgeschwindigkeit verbessern.

Zu den Schritten zum Starten eines Redis -Servers gehören: Installieren von Redis gemäß dem Betriebssystem. Starten Sie den Redis-Dienst über Redis-Server (Linux/macOS) oder redis-server.exe (Windows). Verwenden Sie den Befehl redis-cli ping (linux/macOS) oder redis-cli.exe ping (Windows), um den Dienststatus zu überprüfen. Verwenden Sie einen Redis-Client wie Redis-Cli, Python oder Node.js, um auf den Server zuzugreifen.

Um eine Warteschlange aus Redis zu lesen, müssen Sie den Warteschlangenname erhalten, die Elemente mit dem Befehl LPOP lesen und die leere Warteschlange verarbeiten. Die spezifischen Schritte sind wie folgt: Holen Sie sich den Warteschlangenname: Nennen Sie ihn mit dem Präfix von "Warteschlange:" wie "Warteschlangen: My-Queue". Verwenden Sie den Befehl LPOP: Wischen Sie das Element aus dem Kopf der Warteschlange aus und geben Sie seinen Wert zurück, z. B. die LPOP-Warteschlange: my-queue. Verarbeitung leerer Warteschlangen: Wenn die Warteschlange leer ist, gibt LPOP NIL zurück, und Sie können überprüfen, ob die Warteschlange existiert, bevor Sie das Element lesen.
