Eine kurze Diskussion über Crawler und die Umgehung von Website-Anti-Crawling-Mechanismen-Front-End-Fragen und Antworten-php.cn

Heim

Web-Frontend

Front-End-Fragen und Antworten

Eine kurze Diskussion über Crawler und die Umgehung von Website-Anti-Crawling-Mechanismen

coldplay.xixi

Aug 25, 2020 pm 04:50 PM

爬虫

　 Eine kurze Diskussion über Crawler und die Umgehung von Website-Anti-Crawling-Mechanismen

【Verwandte Lernempfehlungen: Video-Tutorial zur Website-Produktion】

Was ist ein Crawler? Vereinfacht und einseitig ausgedrückt ist ein Crawler ein Tool, das automatisch mit einem Server interagiert Daten beschaffen. Das Grundlegendste an einem Crawler ist, die Quellcodedaten einer Webseite abzurufen. Wenn Sie tiefer gehen, haben Sie eine POST-Interaktion mit der Webseite und erhalten die Daten vom Server zurückgegeben, nachdem Sie die POST-Anfrage erhalten haben. Kurz gesagt, der Crawler wird zum automatischen Abrufen von Quelldaten usw. verwendet. In diesem Artikel geht es hauptsächlich um die Datenbeschaffung durch den Crawler. Crawler, bitte achten Sie auf die Robot.txt-Datei der Website. Lassen Sie nicht zu, dass Crawler gegen das Gesetz verstoßen oder der Website Schaden zufügen.

　Unangemessene Beispiele für Anti-Crawling- und Anti-Anti-Crawling-Konzepte

　 Aus vielen Gründen (z. B. Serverressourcen, Datenschutz usw.) schränken viele Websites den Crawler-Effekt ein.

Denken Sie darüber nach: Wenn ein Mensch als Crawler fungiert, wie erhalten wir dann den Quellcode einer Webseite? Die am häufigsten verwendete Methode ist natürlich das Klicken mit der rechten Maustaste auf den Quellcode.

　Die Website blockiert den Rechtsklick, was soll ich tun?

Eine kurze Diskussion über Crawler und die Umgehung von Website-Anti-Crawling-Mechanismen

Nehmen Sie F12 heraus, das nützlichste Tool in unserem Crawler (willkommene Diskussion)

Drücken Sie gleichzeitig F12, um es zu öffnen (lustig)

Eine kurze Diskussion über Crawler und die Umgehung von Website-Anti-Crawling-Mechanismen

Quellcode Es ist raus!!

Wenn Menschen als Crawler behandelt werden, ist das Blockieren des Rechtsklicks die Anti-Crawling-Strategie und F12 die Anti-Crawling-Methode.

　 Lassen Sie uns über die formale Anti-Crawling-Strategie sprechen

Tatsächlich muss es Situationen gegeben haben, in denen während des Schreibvorgangs eines Crawlers keine Daten zurückgegeben wurden. In diesem Fall hat der Server möglicherweise den UA-Header (Benutzer) eingeschränkt -agent). Dies ist eine sehr einfache Anti-Crawling-Methode. Fügen Sie einfach den UA-Header hinzu, wenn Sie die Anfrage senden ... Ist das nicht sehr einfach?

　Tatsächlich ist es eine einfache und grobe Methode, um alle erforderlichen Elemente hinzuzufügen Header sofort anfordern...

Haben Sie jemals herausgefunden, dass der Bestätigungscode einer Website auch eine Anti-Crawling-Strategie ist? Damit Website-Benutzer echte Menschen sein können, hat der Bestätigungscode wirklich einen großen Beitrag geleistet. Zusammen mit dem Bestätigungscode erschien die Bestätigungscode-Erkennung.

　 Apropos, ich frage mich, ob die Verifizierungscode-Erkennung oder die Bilderkennung an erster Stelle standen.

　 Einfache Verifizierungscodes sind jetzt sehr einfach zu erkennen, einschließlich leicht fortgeschrittener Entrauschungskonzepte , Segmentierung und Reorganisation. Aber jetzt ist die Mensch-Maschine-Erkennung auf Websites immer erschreckender geworden, wie zum Beispiel dieses:

Eine kurze Diskussion über Crawler und die Umgehung von Website-Anti-Crawling-Mechanismen

Beschreiben Sie kurz das Konzept der Entrauschung von Binärwerten.

Binärwert, das heißt, das Bild selbst in nur zwei Töne umwandeln Das Beispiel ist Sehr einfach. Dies kann durch

　Image.convert("1") Eine kurze Diskussion über Crawler und die Umgehung von Website-Anti-Crawling-Mechanismen

　 in der Python-PIL-Bibliothek erreicht werden, aber wenn das Bild komplexer wird, müssen Sie noch mehr darüber nachdenken,

Eine kurze Diskussion über Crawler und die Umgehung von Website-Anti-Crawling-Mechanismen

Wenn Sie eine einfache Methode direkt verwenden, wird es

Überlegen Sie, wie Sie diesen Bestätigungscode identifizieren können. Anhand der Eigenschaften des Codes selbst kann die Hintergrundfarbe berechnet werden des Verifizierungscodes und der RGB-Werte außer der Schriftart usw., wandeln Sie diese Werte in eine Farbe um und lassen Sie die Schriftart weg. Der Beispielcode lautet wie folgt, ändern Sie einfach die Farbe

rrree

Arr wird von Numpy erhalten. Es handelt sich um eine aus den RGB-Werten des Bildes abgeleitete Matrix. Leser können versuchen, den Code zu verbessern und selbst zu experimentieren.

　Nach sorgfältiger Verarbeitung kann das Bild

Die Erkennungsrate ist immer noch sehr hoch.

　Bei der Entwicklung von Verifizierungscodes gibt es relativ klare Zahlen und Buchstaben, einfache Addition, Subtraktion, Multiplikation und Division. Für einige schwierige Zahlen, Buchstaben und chinesische Schriftzeichen können Sie auch Ihre eigenen Räder erstellen (wie oben), aber für mehr Dinge reicht es aus, eine künstliche Intelligenz zu schreiben ... (Es gibt eine Aufgabe, die darin besteht, Bestätigungscodes zu erkennen ...)

Und ein kleiner Tipp: Einige Websites haben Bestätigungscodes auf der PC-Seite, aber nicht auf der Mobiltelefonseite...

　Nächstes Thema!

　 Eine weitere gängige Anti-Crawling-Strategie ist die IP-Blockierung. Normalerweise werden zu viele Besuche in einem kurzen Zeitraum blockiert Ganz einfach. Begrenzen Sie einfach die Häufigkeit der Besuche oder fügen Sie einen IP-Proxy-Pool hinzu. Natürlich kann die Formel auch verwendet werden... Obwohl es nicht viele kostenlose gibt, die genutzt werden können, ist es doch möglich.

Eine weitere Strategie, die auch als Anti-Crawler-Strategie gezählt werden kann, sind asynchrone Daten. Mit der schrittweisen Weiterentwicklung der Crawler (es handelt sich offensichtlich um ein Update der Website!) ist das asynchrone Laden ein Problem, das definitiv auftreten wird Lösung ist immer noch F12. Nehmen Sie als Beispiel die anonyme NetEase Cloud Music-Website, nachdem Sie mit der rechten Maustaste geklickt haben, um den Quellcode zu öffnen.

Eine kurze Diskussion über Crawler und die Umgehung von Website-Anti-Crawling-Mechanismen Wo sind die Daten?! . Aber öffnen Sie F12, wechseln Sie zur Registerkarte „Netzwerk“, aktualisieren Sie die Seite und suchen Sie sorgfältig, es gibt kein Geheimnis.

Eine kurze Diskussion über Crawler und die Umgehung von Website-Anti-Crawling-Mechanismen Übrigens, wenn Sie Musik hören, können Sie sie herunterladen, indem Sie darauf klicken ...

Eine kurze Diskussion über Crawler und die Umgehung von Website-Anti-Crawling-Mechanismen Es dient nur der Popularisierung der Struktur der Website. Bitte widersetzen Sie sich bewusst der Piraterie. Schützen Sie das Urheberrecht und schützen Sie die Interessen des ursprünglichen Urhebers.

　Was sollten Sie tun, wenn diese Website Sie einschränkt? Wir haben einen letzten Plan, eine unbesiegbare Kombination: Selenium + PhantomJs

　Diese Kombination ist sehr leistungsstark und kann das Browserverhalten perfekt simulieren nicht empfehlenswert. Es ist nur für die Populärwissenschaft sehr umständlich.

Das obige ist der detaillierte Inhalt vonEine kurze Diskussion über Crawler und die Umgehung von Website-Anti-Crawling-Mechanismen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Assassin's Creed Shadows: Seashell Riddle -Lösung

3 Wochen vor By DDD

Was ist neu in Windows 11 KB5054979 und wie Sie Update -Probleme beheben

2 Wochen vor By DDD

Wo kann man die Kransteuerungsschlüsselkarten in Atomfall finden

3 Wochen vor By DDD

Ersparnis in R.E.P.O. Erklärt (und speichern Dateien)

1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

Assassins Creed Shadows - So finden Sie den Schmied und entsperren Sie die Waffen- und Rüstungsanpassung

4 Wochen vor By DDD

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7563

CakePHP-Tutorial

1385

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten

Related knowledge

Wie lange dauert es, den Python-Crawler zu erlernen? Oct 25, 2023 am 09:44 AM

Die Zeit, die zum Erlernen von Python-Crawlern benötigt wird, ist von Person zu Person unterschiedlich und hängt von Faktoren wie persönlicher Lernfähigkeit, Lernmethoden, Lernzeit und Erfahrung ab. Beim Erlernen von Python-Crawlern geht es nicht nur um das Erlernen der Technologie selbst, sondern es sind auch gute Fähigkeiten zur Informationsbeschaffung, zur Problemlösung und zur Teamarbeit erforderlich. Durch kontinuierliches Lernen und Üben werden Sie nach und nach zu einem hervorragenden Python-Crawler-Entwickler heranwachsen.

PHP-Crawler-Praxis: Crawlen von Daten auf Twitter Jun 13, 2023 pm 01:17 PM

Im digitalen Zeitalter sind soziale Medien aus dem Leben der Menschen nicht mehr wegzudenken. Twitter ist eines davon, auf dem täglich Hunderte Millionen Nutzer verschiedene Informationen austauschen. Für einige Forschungs-, Analyse-, Werbe- und andere Zwecke ist es unbedingt erforderlich, relevante Daten auf Twitter zu erhalten. In diesem Artikel wird erläutert, wie Sie mit PHP einen einfachen Twitter-Crawler schreiben, der einige schlüsselwortbezogene Daten crawlt und in der Datenbank speichert. 1. TwitterAPI bereitgestellt von Twitter

Crawler-Tipps: Umgang mit Cookies in PHP Jun 13, 2023 pm 02:54 PM

Bei der Crawler-Entwicklung ist der Umgang mit Cookies oft ein wesentlicher Bestandteil. Als Statusverwaltungsmechanismus in HTTP werden Cookies normalerweise zum Aufzeichnen von Benutzeranmeldeinformationen und -verhalten verwendet. Sie sind der Schlüssel für Crawler, um die Benutzerauthentifizierung durchzuführen und den Anmeldestatus aufrechtzuerhalten. Bei der PHP-Crawler-Entwicklung erfordert der Umgang mit Cookies die Beherrschung einiger Fähigkeiten und die Beachtung einiger Fallstricke. Im Folgenden erläutern wir ausführlich den Umgang mit Cookies in PHP. 1. So erhalten Sie Cookies beim Schreiben in PHP

Analyse und Lösungen für häufige Probleme von PHP-Crawlern Aug 06, 2023 pm 12:57 PM

Analyse häufiger Probleme und Lösungen für PHP-Crawler Einleitung: Mit der rasanten Entwicklung des Internets ist die Erfassung von Netzwerkdaten in verschiedenen Bereichen zu einem wichtigen Bindeglied geworden. Als weit verbreitete Skriptsprache verfügt PHP über leistungsstarke Funktionen zur Datenerfassung. Eine der am häufigsten verwendeten Technologien sind Crawler. Bei der Entwicklung und Verwendung von PHP-Crawlern stoßen wir jedoch häufig auf einige Probleme. In diesem Artikel werden diese Probleme analysiert, Lösungen für sie bereitgestellt und entsprechende Codebeispiele bereitgestellt. 1. Beschreibung des Problems, dass die Daten der Zielwebseite nicht korrekt geparst werden können.

Effiziente Java-Crawler-Praxis: Weitergabe von Webdaten-Crawling-Techniken Jan 09, 2024 pm 12:29 PM

Java-Crawler-Praxis: So crawlen Sie Webseitendaten effizient Einführung: Mit der rasanten Entwicklung des Internets werden große Mengen wertvoller Daten auf verschiedenen Webseiten gespeichert. Um diese Daten zu erhalten, ist es oft notwendig, manuell auf jede Webseite zuzugreifen und die Informationen einzeln zu extrahieren, was zweifellos eine mühsame und zeitaufwändige Aufgabe ist. Um dieses Problem zu lösen, wurden verschiedene Crawler-Tools entwickelt, von denen der Java-Crawler eines der am häufigsten verwendeten ist. Dieser Artikel führt den Leser dazu, zu verstehen, wie man mit Java einen effizienten Webcrawler schreibt, und demonstriert die Praxis anhand spezifischer Codebeispiele. 1. Die Basis des Reptils

Effizientes Crawlen von Webseitendaten: kombinierte Verwendung von PHP und Selenium Jun 15, 2023 pm 08:36 PM

Mit der rasanten Entwicklung der Internet-Technologie werden Webanwendungen zunehmend in unserer täglichen Arbeit und unserem Leben eingesetzt. Bei der Entwicklung von Webanwendungen ist das Crawlen von Webseitendaten eine sehr wichtige Aufgabe. Obwohl es viele Web-Scraping-Tools auf dem Markt gibt, sind diese Tools nicht sehr effizient. Um die Effizienz des Crawlens von Webseitendaten zu verbessern, können wir die Kombination von PHP und Selenium verwenden. Zuerst müssen wir verstehen, was PHP und Selenium sind. PHP ist mächtig

Praktische Crawler-Praxis: Verwendung von PHP zum Crawlen von Bestandsinformationen Jun 13, 2023 pm 05:32 PM

Der Aktienmarkt war schon immer ein Thema großer Besorgnis. Der tägliche Anstieg, Rückgang und die Veränderungen der Aktien wirken sich direkt auf die Entscheidungen der Anleger aus. Wenn Sie die neuesten Entwicklungen am Aktienmarkt verstehen möchten, müssen Sie Aktieninformationen zeitnah einholen und analysieren. Die traditionelle Methode besteht darin, große Finanzwebsites manuell zu öffnen, um die Aktiendaten einzeln anzuzeigen. Diese Methode ist offensichtlich zu umständlich und ineffizient. Mittlerweile sind Crawler zu einer sehr effizienten und automatisierten Lösung geworden. Als Nächstes zeigen wir, wie Sie mit PHP ein einfaches Aktien-Crawler-Programm schreiben, um Aktiendaten zu erhalten. erlauben

PHP-Praxis: Crawlen von Bilibili-Sperrdaten Jun 13, 2023 pm 07:08 PM

Bilibili ist eine beliebte Sperrvideo-Website in China. Sie ist auch eine Fundgrube, die alle Arten von Daten enthält. Unter ihnen sind Sperrdaten eine sehr wertvolle Ressource, weshalb viele Datenanalysten und Forscher hoffen, diese Daten zu erhalten. In diesem Artikel werde ich die Verwendung der PHP-Sprache zum Crawlen von Bilibili-Sperrdaten vorstellen. Vorbereitungsarbeiten Bevor wir mit dem Crawlen von Sperrdaten beginnen, müssen wir das PHP-Crawler-Framework Symphony2 installieren. Sie können über den folgenden Befehl eingeben

See all articles