Heim Backend-Entwicklung Python-Tutorial Vertiefendes Verständnis der Prinzipien des verteilten Python-Crawlers

Vertiefendes Verständnis der Prinzipien des verteilten Python-Crawlers

Nov 26, 2020 pm 05:59 PM
python 分布式爬虫

Die Kolumne „Python-Video-Tutorial“ stellt das Prinzip des verteilten Crawlers vor.

Vertiefendes Verständnis der Prinzipien des verteilten Python-CrawlersKostenlose Empfehlung:

Python-Video-TutorialSchauen wir uns zunächst an, wie man Webinhalte erhält, wenn es sich um normales menschliches Verhalten handelt.

(1) Öffnen Sie den Browser, geben Sie die URL ein und öffnen Sie die Quellwebseite

(2) Wählen Sie den gewünschten Inhalt aus, einschließlich Titel, Autor, Zusammenfassung, Text und anderen Informationen

(3) Speichern Sie ihn auf der Festplatte

Die oben genannten drei Prozesse, abgebildet auf die technische Ebene, sind eigentlich: Netzwerkanforderung, Erfassung strukturierter Daten und Datenspeicherung.

Wir verwenden Python, um ein einfaches Programm zu schreiben, um die obige einfache Grabbing-Funktion zu implementieren.

#!/usr/bin/python 
#-*- coding: utf-8 -*- 
''''' 
Created on 2014-03-16 
 
@author: Kris 
''' 
import urllib2, re, cookielib 
 
def httpCrawler(url): 
  ''''' 
  @summary: 网页抓取 
  ''' 
  content = httpRequest(url) 
  title = parseHtml(content) 
  saveData(title) 
 
def httpRequest(url): 
  ''''' 
  @summary: 网络请求 
  '''  
  try: 
    ret = None 
    SockFile = None 
    request = urllib2.Request(url) 
    request.add_header('User-Agent', 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; SV1; .NET CLR 1.1.4322)') 
    request.add_header('Pragma', 'no-cache') 
    opener = urllib2.build_opener() 
    SockFile = opener.open(request) 
    ret = SockFile.read() 
  finally: 
    if SockFile: 
      SockFile.close() 
     
  return ret 
 
def parseHtml(html): 
  ''''' 
  @summary: 抓取结构化数据 
  ''' 
  content = None 
  pattern = &#39;<title>([^<]*?)</title>&#39; 
  temp = re.findall(pattern, html) 
  if temp: 
    content = temp[0] 
   
  return content 
   
def saveData(data): 
  &#39;&#39;&#39;&#39;&#39; 
  @summary: 数据存储 
  &#39;&#39;&#39; 
  f = open(&#39;test&#39;, &#39;wb&#39;) 
  f.write(data) 
  f.close() 
   
if __name__ == &#39;__main__&#39;: 
  url = &#39;http://www.baidu.com&#39; 
  httpCrawler(url)
Nach dem Login kopieren

Es sieht sehr einfach aus, ja, es ist ein Basisprogramm für den Einstieg in Crawler. Natürlich umfasst die Implementierung eines Inkassoprozesses nichts weiter als die oben genannten grundlegenden Schritte. Bei der Implementierung eines leistungsstarken Erfassungsprozesses treten jedoch die folgenden Probleme auf:

(1) Der Zugriff auf Cookie-Informationen erfordert beispielsweise grundsätzlich, dass sich Benutzer anmelden, bevor sie die Informationen sehen können Der Wert ist eigentlich sehr einfach. Wir können das von Python bereitgestellte Cookielib-Modul verwenden, um jeden Besuch mit den von der Quellwebsite bereitgestellten Cookie-Informationen zu erreichen. Auf diese Weise können wir die Anmeldung erfolgreich simulieren und der Crawler befindet sich im Anmeldestatus. Dann können wir alle von eingeloggten Benutzern angezeigten Informationen sammeln. Das Folgende ist eine Modifikation der httpRequest()-Methode, die Cookies verwendet:

ckjar = cookielib.MozillaCookieJar() 
cookies = urllib2.HTTPCookieProcessor(ckjar)     #定义cookies对象 
def httpRequest(url): 
  &#39;&#39;&#39;&#39;&#39; 
  @summary: 网络请求 
  &#39;&#39;&#39;  
  try: 
    ret = None 
    SockFile = None 
    request = urllib2.Request(url) 
    request.add_header(&#39;User-Agent&#39;, &#39;Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; SV1; .NET CLR 1.1.4322)&#39;) 
    request.add_header(&#39;Pragma&#39;, &#39;no-cache&#39;) 
    opener = urllib2.build_opener(cookies)    #传递cookies对象 
    SockFile = opener.open(request) 
    ret = SockFile.read() 
  finally: 
    if SockFile: 
      SockFile.close() 
     
  return ret
Nach dem Login kopieren

(2) Codierungsproblem. Derzeit gibt es zwei gängigste Codierungen auf Websites: utf-8 oder gbk. Wenn wir die Codierung der Quellwebsite erfassen und die in unserer Datenbank gespeicherte Codierung inkonsistent ist, verwendet die Codierung von 163.com beispielsweise gbk, was wir benötigen Wenn der Speicher utf. -8-codierte Daten enthält, können wir zum Konvertieren die in Python bereitgestellten Methoden encode() und decode() verwenden. Beispiel:

content = content.decode(&#39;gbk&#39;, &#39;ignore&#39;)   #将gbk编码转为unicode编码 
content = content.encode(&#39;utf-8&#39;, &#39;ignore&#39;)  #将unicode编码转为utf-8编码
Nach dem Login kopieren

In der Mitte erscheint die Unicode-Codierung. Wir müssen sie in die Zwischencodierung Unicode konvertieren bevor wir es in GBK oder UTF-8 konvertieren können.

(3) Die Tags auf der Webseite sind beispielsweise unvollständig. Einige Quellcodes haben ein Start-Tag, aber kein End-Tag. Unvollständige HTML-Tags beeinträchtigen unsere Fähigkeit, strukturierte Daten zu erfassen Zuerst den Quellcode erstellen und dann den Inhalt analysieren und abrufen.

(4) Einige Websites verwenden JS zum Speichern von Webinhalten. Als wir uns den Quellcode direkt ansahen, fanden wir eine Menge problematischen JS-Code. Sie können Mozilla, Webkit und andere Toolkits verwenden, die Browser analysieren können, um JS und Ajax zu analysieren, obwohl die Geschwindigkeit etwas langsamer ist.

(5) Bilder liegen in Flash-Form vor. Wenn der Inhalt des Bildes aus Text oder Zahlen besteht, ist dies einfacher zu handhaben. Wir müssen nur die OCR-Technologie verwenden, um eine automatische Erkennung zu erreichen. Wenn es sich jedoch um einen Flash-Link handelt, speichern wir die gesamte URL.

(6) Eine Webseite hat mehrere Webseitenstrukturen, wenn wir nur einen Satz von Crawling-Regeln haben, wird es definitiv nicht funktionieren. Daher müssen wir mehrere Sätze von Simulationen konfigurieren, um das Crawlen zu unterstützen.

(7) Überwachen Sie die Quellwebsite. Schließlich ist es keine gute Sache, die Dinge anderer Leute zu crawlen, daher gibt es auf den meisten Websites Einschränkungen für Crawler, die den Zugriff verbieten.

Ein gutes Erfassungssystem sollte so sein, dass wir unsere Zieldaten, egal wo sie sich befinden, zurückerhalten können, solange sie für den Benutzer sichtbar sind. Die Erfassung der Daten, die Sie sehen, ist das, was Sie erhalten, ist nicht blockiert. Unabhängig davon, ob Daten angemeldet werden müssen oder nicht, kann die Erfassung reibungslos erfolgen. Die meisten wertvollen Informationen erfordern im Allgemeinen eine Anmeldung, um sie anzuzeigen, z. B. soziale Netzwerke. Um die Anmeldung zu bewältigen, muss die Website über ein Crawler-System verfügen, das die Benutzeranmeldung simuliert, um Daten normal abzurufen. Allerdings hoffen soziale Websites, einen geschlossenen Kreislauf zu bilden, und sind nicht bereit, Daten außerhalb der Website zu veröffentlichen. Ein solches System wird für Menschen nicht so offen sein wie Nachrichten und andere Inhalte. Die meisten dieser sozialen Websites unterliegen einigen Einschränkungen, um zu verhindern, dass Roboter-Crawler-Systeme Daten crawlen. Im Allgemeinen dauert es nicht lange, bis ein Konto gecrawlt wird, bevor es erkannt wird und der Zugriff gesperrt wird. Bedeutet das, dass wir die Daten dieser Websites nicht crawlen können? Dies ist definitiv nicht der Fall, solange soziale Websites den Zugriff auf Webseiten nicht sperren, können wir auch auf die Daten zugreifen, auf die normale Menschen zugreifen können. Letztlich handelt es sich um eine Simulation des normalen Verhaltens einer Person, die in der Fachsprache „Anti-Monitoring“ genannt wird.


Für Quellwebsites gelten im Allgemeinen die folgenden Einschränkungen:


1. Die Anzahl der Besuche einer einzelnen IP innerhalb eines bestimmten Zeitraums. Wenn ein normaler Benutzer auf die Website zugreift, wird dies nicht passieren Besuchen Sie eine Website schnell und es wird nicht allzu lange dauern. Dieses Problem lässt sich leicht lösen. Wir können eine große Anzahl unregelmäßiger Proxy-IPs verwenden, um einen Proxy-Pool zu bilden, Proxys zufällig aus dem Proxy-Pool auszuwählen und den Zugriff zu simulieren. Es gibt zwei Arten von Proxy-IPs: transparenter Proxy und anonymer Proxy.

2. Die Anzahl der Besuche auf einem einzelnen Konto innerhalb eines bestimmten Zeitraums. Wenn eine Person 24 Stunden am Tag auf eine Datenschnittstelle zugreift und die Geschwindigkeit sehr hoch ist, handelt es sich möglicherweise um einen Roboter. Wir können eine große Anzahl von Konten mit normalem Verhalten verwenden, und die Anzahl der pro Zeiteinheit besuchten URLs sollte minimiert werden Das Intervall kann ein zufälliger Wert sein, d. h. nach jedem Besuch einer URL wird für einen zufälligen Zeitraum in den Ruhezustand versetzt und dann die nächste URL aufgerufen.

Wenn Sie die Zugriffsrichtlinien des Kontos und der IP steuern können, gibt es im Grunde kein Problem. Natürlich muss die Website des Gegners auch Betriebs- und Wartungsstrategien anpassen. In einem Kampf zwischen dem Feind und uns muss der Crawler erkennen können, dass die Anti-Überwachung der anderen Partei Auswirkungen auf uns hat, und den Administrator benachrichtigen um es rechtzeitig zu bearbeiten. Tatsächlich ist es am idealsten, durch maschinelles Lernen eine Anti-Überwachungs-Konfrontation intelligent implementieren und eine unterbrechungsfreie Erfassung erreichen zu können.

Das Folgende ist ein verteiltes Crawler-Architekturdiagramm, das ich kürzlich entwerfe, wie in Abbildung 1 gezeigt:

Dies ist eine reine bescheidene Arbeit. Die Kommunikation zwischen dem Server und dem Client Es wird hauptsächlich das Socket-Modul von Python verwendet, um die Kommunikation zwischen dem Server und dem Client zu implementieren. Bei Interesse können Sie mich individuell kontaktieren, um eine bessere Lösung zu besprechen und umzusetzen.

Das obige ist der detaillierte Inhalt vonVertiefendes Verständnis der Prinzipien des verteilten Python-Crawlers. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Beste grafische Einstellungen
4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können
4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Wie man alles in Myrise freischaltet
1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Hadidb: Eine leichte, horizontal skalierbare Datenbank in Python Hadidb: Eine leichte, horizontal skalierbare Datenbank in Python Apr 08, 2025 pm 06:12 PM

Hadidb: Eine leichte, hochrangige skalierbare Python-Datenbank Hadidb (HadIDB) ist eine leichte Datenbank in Python mit einem hohen Maß an Skalierbarkeit. Installieren Sie HadIDB mithilfe der PIP -Installation: PipinstallHadIDB -Benutzerverwaltung erstellen Benutzer: createUser (), um einen neuen Benutzer zu erstellen. Die Authentication () -Methode authentifiziert die Identität des Benutzers. fromHadidb.operationImportUseruser_obj = user ("admin", "admin") user_obj.

Python: Erforschen der primären Anwendungen Python: Erforschen der primären Anwendungen Apr 10, 2025 am 09:41 AM

Python wird in den Bereichen Webentwicklung, Datenwissenschaft, maschinelles Lernen, Automatisierung und Skripten häufig verwendet. 1) In der Webentwicklung vereinfachen Django und Flask Frameworks den Entwicklungsprozess. 2) In den Bereichen Datenwissenschaft und maschinelles Lernen bieten Numpy-, Pandas-, Scikit-Learn- und TensorFlow-Bibliotheken eine starke Unterstützung. 3) In Bezug auf Automatisierung und Skript ist Python für Aufgaben wie automatisiertes Test und Systemmanagement geeignet.

Der 2-stündige Python-Plan: ein realistischer Ansatz Der 2-stündige Python-Plan: ein realistischer Ansatz Apr 11, 2025 am 12:04 AM

Sie können grundlegende Programmierkonzepte und Fähigkeiten von Python innerhalb von 2 Stunden lernen. 1. Lernen Sie Variablen und Datentypen, 2. Master Control Flow (bedingte Anweisungen und Schleifen), 3.. Verstehen Sie die Definition und Verwendung von Funktionen, 4. Beginnen Sie schnell mit der Python -Programmierung durch einfache Beispiele und Code -Snippets.

Navicat -Methode zum Anzeigen von MongoDB -Datenbankkennwort Navicat -Methode zum Anzeigen von MongoDB -Datenbankkennwort Apr 08, 2025 pm 09:39 PM

Es ist unmöglich, das MongoDB -Passwort direkt über Navicat anzuzeigen, da es als Hash -Werte gespeichert ist. So rufen Sie verlorene Passwörter ab: 1. Passwörter zurücksetzen; 2. Überprüfen Sie die Konfigurationsdateien (können Hash -Werte enthalten). 3. Überprüfen Sie Codes (May Hardcode -Passwörter).

Wie man AWS -Kleber mit Amazon Athena verwendet Wie man AWS -Kleber mit Amazon Athena verwendet Apr 09, 2025 pm 03:09 PM

Als Datenprofi müssen Sie große Datenmengen aus verschiedenen Quellen verarbeiten. Dies kann Herausforderungen für das Datenmanagement und die Analyse darstellen. Glücklicherweise können zwei AWS -Dienste helfen: AWS -Kleber und Amazon Athena.

Wie optimieren Sie die MySQL-Leistung für Hochlastanwendungen? Wie optimieren Sie die MySQL-Leistung für Hochlastanwendungen? Apr 08, 2025 pm 06:03 PM

Die MySQL-Datenbankleistung Optimierungshandbuch In ressourcenintensiven Anwendungen spielt die MySQL-Datenbank eine entscheidende Rolle und ist für die Verwaltung massiver Transaktionen verantwortlich. Mit der Erweiterung der Anwendung werden jedoch die Datenbankleistung Engpässe häufig zu einer Einschränkung. In diesem Artikel werden eine Reihe effektiver Strategien zur Leistungsoptimierung von MySQL -Leistung untersucht, um sicherzustellen, dass Ihre Anwendung unter hohen Lasten effizient und reaktionsschnell bleibt. Wir werden tatsächliche Fälle kombinieren, um eingehende Schlüsseltechnologien wie Indexierung, Abfrageoptimierung, Datenbankdesign und Caching zu erklären. 1. Das Design der Datenbankarchitektur und die optimierte Datenbankarchitektur sind der Eckpfeiler der MySQL -Leistungsoptimierung. Hier sind einige Kernprinzipien: Die Auswahl des richtigen Datentyps und die Auswahl des kleinsten Datentyps, der den Anforderungen entspricht, kann nicht nur Speicherplatz speichern, sondern auch die Datenverarbeitungsgeschwindigkeit verbessern.

So starten Sie den Server mit Redis So starten Sie den Server mit Redis Apr 10, 2025 pm 08:12 PM

Zu den Schritten zum Starten eines Redis -Servers gehören: Installieren von Redis gemäß dem Betriebssystem. Starten Sie den Redis-Dienst über Redis-Server (Linux/macOS) oder redis-server.exe (Windows). Verwenden Sie den Befehl redis-cli ping (linux/macOS) oder redis-cli.exe ping (Windows), um den Dienststatus zu überprüfen. Verwenden Sie einen Redis-Client wie Redis-Cli, Python oder Node.js, um auf den Server zuzugreifen.

So lesen Sie Redis -Warteschlange So lesen Sie Redis -Warteschlange Apr 10, 2025 pm 10:12 PM

Um eine Warteschlange aus Redis zu lesen, müssen Sie den Warteschlangenname erhalten, die Elemente mit dem Befehl LPOP lesen und die leere Warteschlange verarbeiten. Die spezifischen Schritte sind wie folgt: Holen Sie sich den Warteschlangenname: Nennen Sie ihn mit dem Präfix von "Warteschlange:" wie "Warteschlangen: My-Queue". Verwenden Sie den Befehl LPOP: Wischen Sie das Element aus dem Kopf der Warteschlange aus und geben Sie seinen Wert zurück, z. B. die LPOP-Warteschlange: my-queue. Verarbeitung leerer Warteschlangen: Wenn die Warteschlange leer ist, gibt LPOP NIL zurück, und Sie können überprüfen, ob die Warteschlange existiert, bevor Sie das Element lesen.

See all articles