


Eine kurze Diskussion über Crawler und die Umgehung von Website-Anti-Crawling-Mechanismen
【Verwandte Lernempfehlungen: Video-Tutorial zur Website-Produktion】
Was ist ein Crawler? Vereinfacht und einseitig ausgedrückt ist ein Crawler ein Tool, das automatisch mit einem Server interagiert Daten beschaffen. Das Grundlegendste an einem Crawler ist, die Quellcodedaten einer Webseite abzurufen. Wenn Sie tiefer gehen, haben Sie eine POST-Interaktion mit der Webseite und erhalten die Daten vom Server zurückgegeben, nachdem Sie die POST-Anfrage erhalten haben. Kurz gesagt, der Crawler wird zum automatischen Abrufen von Quelldaten usw. verwendet. In diesem Artikel geht es hauptsächlich um die Datenbeschaffung durch den Crawler. Crawler, bitte achten Sie auf die Robot.txt-Datei der Website. Lassen Sie nicht zu, dass Crawler gegen das Gesetz verstoßen oder der Website Schaden zufügen.
Unangemessene Beispiele für Anti-Crawling- und Anti-Anti-Crawling-Konzepte
Aus vielen Gründen (z. B. Serverressourcen, Datenschutz usw.) schränken viele Websites den Crawler-Effekt ein.
Denken Sie darüber nach: Wenn ein Mensch als Crawler fungiert, wie erhalten wir dann den Quellcode einer Webseite? Die am häufigsten verwendete Methode ist natürlich das Klicken mit der rechten Maustaste auf den Quellcode.
Die Website blockiert den Rechtsklick, was soll ich tun?
Nehmen Sie F12 heraus, das nützlichste Tool in unserem Crawler (willkommene Diskussion)
Drücken Sie gleichzeitig F12, um es zu öffnen (lustig)
Quellcode Es ist raus!!
Wenn Menschen als Crawler behandelt werden, ist das Blockieren des Rechtsklicks die Anti-Crawling-Strategie und F12 die Anti-Crawling-Methode.
Lassen Sie uns über die formale Anti-Crawling-Strategie sprechen
Tatsächlich muss es Situationen gegeben haben, in denen während des Schreibvorgangs eines Crawlers keine Daten zurückgegeben wurden. In diesem Fall hat der Server möglicherweise den UA-Header (Benutzer) eingeschränkt -agent). Dies ist eine sehr einfache Anti-Crawling-Methode. Fügen Sie einfach den UA-Header hinzu, wenn Sie die Anfrage senden ... Ist das nicht sehr einfach?
Tatsächlich ist es eine einfache und grobe Methode, um alle erforderlichen Elemente hinzuzufügen Header sofort anfordern...
Haben Sie jemals herausgefunden, dass der Bestätigungscode einer Website auch eine Anti-Crawling-Strategie ist? Damit Website-Benutzer echte Menschen sein können, hat der Bestätigungscode wirklich einen großen Beitrag geleistet. Zusammen mit dem Bestätigungscode erschien die Bestätigungscode-Erkennung.
Apropos, ich frage mich, ob die Verifizierungscode-Erkennung oder die Bilderkennung an erster Stelle standen.
Einfache Verifizierungscodes sind jetzt sehr einfach zu erkennen, einschließlich leicht fortgeschrittener Entrauschungskonzepte , Segmentierung und Reorganisation. Aber jetzt ist die Mensch-Maschine-Erkennung auf Websites immer erschreckender geworden, wie zum Beispiel dieses:
Beschreiben Sie kurz das Konzept der Entrauschung von Binärwerten.
Binärwert, das heißt, das Bild selbst in nur zwei Töne umwandeln Das Beispiel ist Sehr einfach. Dies kann durch
Image.convert("1")
Überlegen Sie, wie Sie diesen Bestätigungscode identifizieren können. Anhand der Eigenschaften des Codes selbst kann die Hintergrundfarbe berechnet werden des Verifizierungscodes und der RGB-Werte außer der Schriftart usw., wandeln Sie diese Werte in eine Farbe um und lassen Sie die Schriftart weg. Der Beispielcode lautet wie folgt, ändern Sie einfach die Farbe
rrree Arr wird von Numpy erhalten. Es handelt sich um eine aus den RGB-Werten des Bildes abgeleitete Matrix. Leser können versuchen, den Code zu verbessern und selbst zu experimentieren.
Bei der Entwicklung von Verifizierungscodes gibt es relativ klare Zahlen und Buchstaben, einfache Addition, Subtraktion, Multiplikation und Division. Für einige schwierige Zahlen, Buchstaben und chinesische Schriftzeichen können Sie auch Ihre eigenen Räder erstellen (wie oben), aber für mehr Dinge reicht es aus, eine künstliche Intelligenz zu schreiben ... (Es gibt eine Aufgabe, die darin besteht, Bestätigungscodes zu erkennen ...)
Und ein kleiner Tipp: Einige Websites haben Bestätigungscodes auf der PC-Seite, aber nicht auf der Mobiltelefonseite...
Nächstes Thema!
Eine weitere gängige Anti-Crawling-Strategie ist die IP-Blockierung. Normalerweise werden zu viele Besuche in einem kurzen Zeitraum blockiert Ganz einfach. Begrenzen Sie einfach die Häufigkeit der Besuche oder fügen Sie einen IP-Proxy-Pool hinzu. Natürlich kann die Formel auch verwendet werden... Obwohl es nicht viele kostenlose gibt, die genutzt werden können, ist es doch möglich.
Eine weitere Strategie, die auch als Anti-Crawler-Strategie gezählt werden kann, sind asynchrone Daten. Mit der schrittweisen Weiterentwicklung der Crawler (es handelt sich offensichtlich um ein Update der Website!) ist das asynchrone Laden ein Problem, das definitiv auftreten wird Lösung ist immer noch F12. Nehmen Sie als Beispiel die anonyme NetEase Cloud Music-Website, nachdem Sie mit der rechten Maustaste geklickt haben, um den Quellcode zu öffnen.
Wo sind die Daten?! . Aber öffnen Sie F12, wechseln Sie zur Registerkarte „Netzwerk“, aktualisieren Sie die Seite und suchen Sie sorgfältig, es gibt kein Geheimnis.
Übrigens, wenn Sie Musik hören, können Sie sie herunterladen, indem Sie darauf klicken ...
Es dient nur der Popularisierung der Struktur der Website. Bitte widersetzen Sie sich bewusst der Piraterie. Schützen Sie das Urheberrecht und schützen Sie die Interessen des ursprünglichen Urhebers.
Was sollten Sie tun, wenn diese Website Sie einschränkt? Wir haben einen letzten Plan, eine unbesiegbare Kombination: Selenium + PhantomJs
Diese Kombination ist sehr leistungsstark und kann das Browserverhalten perfekt simulieren nicht empfehlenswert. Es ist nur für die Populärwissenschaft sehr umständlich.
Das obige ist der detaillierte Inhalt vonEine kurze Diskussion über Crawler und die Umgehung von Website-Anti-Crawling-Mechanismen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen



Die Zeit, die zum Erlernen von Python-Crawlern benötigt wird, ist von Person zu Person unterschiedlich und hängt von Faktoren wie persönlicher Lernfähigkeit, Lernmethoden, Lernzeit und Erfahrung ab. Beim Erlernen von Python-Crawlern geht es nicht nur um das Erlernen der Technologie selbst, sondern es sind auch gute Fähigkeiten zur Informationsbeschaffung, zur Problemlösung und zur Teamarbeit erforderlich. Durch kontinuierliches Lernen und Üben werden Sie nach und nach zu einem hervorragenden Python-Crawler-Entwickler heranwachsen.

Im digitalen Zeitalter sind soziale Medien aus dem Leben der Menschen nicht mehr wegzudenken. Twitter ist eines davon, auf dem täglich Hunderte Millionen Nutzer verschiedene Informationen austauschen. Für einige Forschungs-, Analyse-, Werbe- und andere Zwecke ist es unbedingt erforderlich, relevante Daten auf Twitter zu erhalten. In diesem Artikel wird erläutert, wie Sie mit PHP einen einfachen Twitter-Crawler schreiben, der einige schlüsselwortbezogene Daten crawlt und in der Datenbank speichert. 1. TwitterAPI bereitgestellt von Twitter

Bei der Crawler-Entwicklung ist der Umgang mit Cookies oft ein wesentlicher Bestandteil. Als Statusverwaltungsmechanismus in HTTP werden Cookies normalerweise zum Aufzeichnen von Benutzeranmeldeinformationen und -verhalten verwendet. Sie sind der Schlüssel für Crawler, um die Benutzerauthentifizierung durchzuführen und den Anmeldestatus aufrechtzuerhalten. Bei der PHP-Crawler-Entwicklung erfordert der Umgang mit Cookies die Beherrschung einiger Fähigkeiten und die Beachtung einiger Fallstricke. Im Folgenden erläutern wir ausführlich den Umgang mit Cookies in PHP. 1. So erhalten Sie Cookies beim Schreiben in PHP

Analyse häufiger Probleme und Lösungen für PHP-Crawler Einleitung: Mit der rasanten Entwicklung des Internets ist die Erfassung von Netzwerkdaten in verschiedenen Bereichen zu einem wichtigen Bindeglied geworden. Als weit verbreitete Skriptsprache verfügt PHP über leistungsstarke Funktionen zur Datenerfassung. Eine der am häufigsten verwendeten Technologien sind Crawler. Bei der Entwicklung und Verwendung von PHP-Crawlern stoßen wir jedoch häufig auf einige Probleme. In diesem Artikel werden diese Probleme analysiert, Lösungen für sie bereitgestellt und entsprechende Codebeispiele bereitgestellt. 1. Beschreibung des Problems, dass die Daten der Zielwebseite nicht korrekt geparst werden können.

Java-Crawler-Praxis: So crawlen Sie Webseitendaten effizient Einführung: Mit der rasanten Entwicklung des Internets werden große Mengen wertvoller Daten auf verschiedenen Webseiten gespeichert. Um diese Daten zu erhalten, ist es oft notwendig, manuell auf jede Webseite zuzugreifen und die Informationen einzeln zu extrahieren, was zweifellos eine mühsame und zeitaufwändige Aufgabe ist. Um dieses Problem zu lösen, wurden verschiedene Crawler-Tools entwickelt, von denen der Java-Crawler eines der am häufigsten verwendeten ist. Dieser Artikel führt den Leser dazu, zu verstehen, wie man mit Java einen effizienten Webcrawler schreibt, und demonstriert die Praxis anhand spezifischer Codebeispiele. 1. Die Basis des Reptils

Mit der rasanten Entwicklung der Internet-Technologie werden Webanwendungen zunehmend in unserer täglichen Arbeit und unserem Leben eingesetzt. Bei der Entwicklung von Webanwendungen ist das Crawlen von Webseitendaten eine sehr wichtige Aufgabe. Obwohl es viele Web-Scraping-Tools auf dem Markt gibt, sind diese Tools nicht sehr effizient. Um die Effizienz des Crawlens von Webseitendaten zu verbessern, können wir die Kombination von PHP und Selenium verwenden. Zuerst müssen wir verstehen, was PHP und Selenium sind. PHP ist mächtig

Der Aktienmarkt war schon immer ein Thema großer Besorgnis. Der tägliche Anstieg, Rückgang und die Veränderungen der Aktien wirken sich direkt auf die Entscheidungen der Anleger aus. Wenn Sie die neuesten Entwicklungen am Aktienmarkt verstehen möchten, müssen Sie Aktieninformationen zeitnah einholen und analysieren. Die traditionelle Methode besteht darin, große Finanzwebsites manuell zu öffnen, um die Aktiendaten einzeln anzuzeigen. Diese Methode ist offensichtlich zu umständlich und ineffizient. Mittlerweile sind Crawler zu einer sehr effizienten und automatisierten Lösung geworden. Als Nächstes zeigen wir, wie Sie mit PHP ein einfaches Aktien-Crawler-Programm schreiben, um Aktiendaten zu erhalten. erlauben

Bilibili ist eine beliebte Sperrvideo-Website in China. Sie ist auch eine Fundgrube, die alle Arten von Daten enthält. Unter ihnen sind Sperrdaten eine sehr wertvolle Ressource, weshalb viele Datenanalysten und Forscher hoffen, diese Daten zu erhalten. In diesem Artikel werde ich die Verwendung der PHP-Sprache zum Crawlen von Bilibili-Sperrdaten vorstellen. Vorbereitungsarbeiten Bevor wir mit dem Crawlen von Sperrdaten beginnen, müssen wir das PHP-Crawler-Framework Symphony2 installieren. Sie können über den folgenden Befehl eingeben
