Ein leistungsstarker Crawler basierend auf Node.js, der gecrawlte Articles_node.js direkt veröffentlichen kann-js-Tutorial-php.cn

Heim

Web-Frontend

js-Tutorial

Ein leistungsstarker Crawler basierend auf Node.js, der gecrawlte Articles_node.js direkt veröffentlichen kann

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

May 16, 2016 pm 03:20 PM

node.js 爬虫

1. Umgebungskonfiguration

1) Erstellen Sie einen Server, jedes Linux reicht aus, ich verwende CentOS 6.5;

2) Installieren Sie eine MySQL-Datenbank, entweder 5.5 oder 5.6. Um Ärger zu vermeiden, können Sie sie direkt mit lnmp oder Lamp installieren. Sie können die Protokolle auch später direkt im Browser lesen

3) Installieren Sie zuerst eine node.js-Umgebung. Ich habe keine späteren Versionen ausprobiert

4) Führen Sie npm -g install forever aus, um die Installation für immer durchzuführen, damit der Crawler im Hintergrund laufen kann

5) Organisieren Sie den gesamten Code lokal (Integration = Git-Klon);

6) Führen Sie npm install im Projektverzeichnis aus, um abhängige Bibliotheken zu installieren

7) Erstellen Sie zwei leere Ordner, json und avatar, im Projektverzeichnis

8) Erstellen Sie eine leere MySQL-Datenbank und einen Benutzer mit vollständigen Berechtigungen, führen Sie setup.sql und startusers.sql nacheinander im Code aus, erstellen Sie die Datenbankstruktur und importieren Sie den anfänglichen Seed-Benutzer

9) Bearbeiten Sie config.js. Die mit (erforderlich) markierten Konfigurationselemente müssen ausgefüllt oder geändert werden, und die übrigen Elemente können vorerst unverändert bleiben:

Speichern Sie und fahren Sie mit dem nächsten Schritt fort.

exports.jsonPath = "./json/";//生成json文件的路径
exports.avatarPath = "./avatar/";//保存头像文件的路径
exports.dbconfig = {
  host: 'localhost',//数据库服务器（必须）
  user: 'dbuser',//数据库用户名（必须）
  password: 'dbpassword',//数据库密码（必须）
  database: 'dbname',//数据库名（必须）
  port: 3306,//数据库服务器端口
  poolSize: 20,
  acquireTimeout: 30000
};
  
exports.urlpre = "http://www.jb51.net/";//脚本网址
exports.urlzhuanlanpre = "http://www.jb51.net/list/index_96.htm/";//脚本网址
  
exports.WPurl = "www.xxx.com";//要发布文章的wordpress网站地址
exports.WPusername = "publishuser";//发布文章的用户名
exports.WPpassword = "publishpassword";//发布文章用户的密码
exports.WPurlavatarpre = "http://www.xxx.com/avatar/";//发布文章中替代原始头像的url地址
  
exports.mailservice = "QQ";//邮件通知服务类型，也可以用Gmail，前提是你访问得了Gmail（必须）
exports.mailuser = "12345@qq.com";//邮箱用户名（必须）
exports.mailpass = "qqpassword";//邮箱密码（必须）
exports.mailfrom = "12345@qq.com";//发送邮件地址（必须，一般与用户名所属邮箱一致）
exports.mailto = "12345@qq.com";//接收通知邮件地址（必须）

Nach dem Login kopieren

2. Crawler-Benutzer

Das Prinzip des Crawlers besteht eigentlich darin, einen echten Zhihu-Benutzer zu simulieren, der auf der Website herumklickt und Daten sammelt. Wir benötigen also einen echten Zhihu-Benutzer. Zum Testen können Sie Ihr eigenes Konto verwenden. Aus langfristigen Gründen ist es jedoch besser, ein spezielles Konto zu registrieren. Eins reicht aus, und der aktuelle Crawler unterstützt nur eines. Unser Simulationsprozess muss sich nicht wie ein echter Benutzer von der Homepage aus anmelden, sondern leiht sich direkt den Cookie-Wert aus: Gehen Sie nach der Registrierung, Aktivierung und Anmeldung auf Ihre Homepage, verwenden Sie einen beliebigen Browser mit Entwicklermodus oder Cookie-Plugin und öffnen Sie Ihre eigenen Cookies in Zhihu. Es mag eine sehr komplexe Liste sein, aber wir brauchen nur einen Teil davon, nämlich „z_c0“. Kopieren Sie den z_c0-Teil Ihres eigenen Cookies und lassen Sie die Gleichheitszeichen, Anführungszeichen und Semikolons weg. Das endgültige Format sieht ungefähr so aus:

Fügen Sie eine Zeile mit Datensätzen in die Cookies-Tabelle der MySQL-Datenbank ein, wobei die Werte jedes Felds wie folgt lauten:

z_c0="LA8kJIJFdDSOA883wkUGJIRE8jVNKSOQfB9430=|1420113988|a6ea18bc1b23ea469e3b5fb2e33c2828439cb";

Nach dem Login kopieren

E-Mail: Die Login-E-Mail-Adresse des Crawler-Benutzers

Passwort: das Passwort des Crawler-Benutzers
Name: Crawler-Benutzername
Hash: der Hash des Crawler-Benutzers (eine eindeutige Kennung, die nicht von jedem Benutzer geändert werden kann. Tatsächlich wird er hier nicht verwendet und kann vorübergehend leer gelassen werden)
Cookie: das Cookie, das Sie gerade kopiert haben
Dann kann es offiziell losgehen. Wenn das Cookie abläuft oder der Benutzer blockiert ist, ändern Sie einfach das Cookie-Feld in dieser Datensatzzeile.

3. Bedienung

Es wird empfohlen, für die Ausführung „Forever“ zu verwenden, was nicht nur die Ausführung und Protokollierung im Hintergrund erleichtert, sondern auch nach einem Absturz automatisch neu startet. Beispiel:

Die Adresse nach -l ist der Ort, an dem das Protokoll aufgezeichnet wird. Wenn es im Webserververzeichnis abgelegt wird, kann im Browser über

http://www.xxx.com/log.txt< darauf zugegriffen werden 🎜> Überprüfen Sie direkt das Protokoll. Fügen Sie nach index.js Parameter (durch Leerzeichen getrennt) hinzu, um verschiedene Crawler-Anweisungen auszuführen:

forever -l /var/www/log.txt index.js

Nach dem Login kopieren

1. -i wird sofort ausgeführt, wenn dieser Parameter nicht hinzugefügt wird, wird er standardmäßig zum nächsten angegebenen Zeitpunkt ausgeführt, z. B. jeden Morgen um 0:05 Uhr 2. -ng überspringt die Phase des Abrufens neuer Benutzer, also getnewuser; 3. -ns überspringt die Snapshot-Phase, also den Usersnapshot; 4. -nf überspringt die Phase der Datendateigenerierung, d. h. saveviewfile

5. -db zeigt Debugging-Protokolle an.

Die Funktionen jeder Stufe werden im nächsten Abschnitt vorgestellt. Um die Bedienung zu erleichtern, können Sie diese Befehlszeile als SH-Skript schreiben, zum Beispiel:

Bitte ersetzen Sie den spezifischen Pfad durch Ihren eigenen. Auf diese Weise können Sie den Crawler starten, indem Sie Parameter zu ./zhihuspider.sh hinzufügen: Beispielsweise startet ./zhihuspider.sh -i -ng -nf die Aufgabe sofort und überspringt die Phasen des Speicherns neuer Benutzer und Dateien. Die Methode zum Stoppen des Crawlers ist „forever stopall“ (oder „Stopp-Seriennummer“).

4. Übersicht der Grundsätze

Stellen Sie sicher, dass die Eintragsdatei für den Zhihu-Crawler index.js ist. Es führt Crawler-Aufgaben täglich zu bestimmten Zeiten in einer Schleife aus. Es gibt drei Aufgaben, die jeden Tag nacheinander ausgeführt werden, nämlich:

1) getnewuser.js: Erfassen Sie neue Benutzerinformationen, indem Sie die Liste der Benutzer-Follower in der aktuellen Bibliothek vergleichen und automatisch die würdigen Benutzer auflisten Zhihu Neue Leute werden zur Bibliothek hinzugefügt

2) usersnapshot.js: Schleifen zum Erfassen von Benutzerinformationen und Antwortlisten in der aktuellen Bibliothek und zum Speichern dieser in Form von täglichen Snapshots.

3) saveviewfile.js: Generieren Sie eine Benutzeranalyseliste basierend auf dem Inhalt des neuesten Snapshots, filtern Sie gestrige, aktuelle und historische Essenzantworten heraus und veröffentlichen Sie sie im „Kanzhihu“-Website.

Nachdem die oben genannten drei Aufgaben abgeschlossen sind, aktualisiert der Hauptthread alle paar Minuten die Zhihu-Homepage, um zu überprüfen, ob das aktuelle Cookie noch gültig ist. Wenn es ungültig ist (Sprung zur Nicht-Anmeldeseite), wird eine Benachrichtigungs-E-Mail gesendet werden an das angegebene Postfach gesendet und erinnern Sie daran, Cookies rechtzeitig zu ändern. Die Methode zum Ändern von Cookies ist die gleiche wie bei der Initialisierung. Sie müssen sich nur einmal manuell anmelden und dann den Cookie-Wert entfernen. Wenn Sie an der spezifischen Code-Implementierung interessiert sind, können Sie die darin enthaltenen Kommentare sorgfältig lesen, einige Konfigurationen anpassen oder sogar versuchen, den gesamten Crawler selbst zu rekonstruieren.

Tipps

1) Das Prinzip von getnewuser besteht darin, die Erfassung durch den Vergleich der Anzahl der Benutzerfolgen in den Schnappschüssen der beiden Tage davor und danach festzulegen. Daher müssen mindestens zwei Schnappschüsse vorhanden sein, bevor sie gestartet werden können Wird zuvor ausgeführt, wird es automatisch übersprungen.

2) Die Hälfte des Snapshots kann wiederhergestellt werden. Wenn das Programm aufgrund eines Fehlers abstürzt, stoppen Sie es mit „Forever Stop“ und fügen Sie dann die Parameter -i -ng hinzu, um es sofort auszuführen und die neue Benutzerphase zu überspringen, sodass Sie mit dem halb erfassten Snapshot fortfahren können.

3) Erhöhen Sie nicht einfach die Anzahl der (Pseudo-)Threads, wenn Sie Snapshots erstellen, d. h. das Attribut „maxthreadcount“ in „usersnapshots“. Zu viele Threads verursachen 429-Fehler und die große erfasste Datenmenge wird möglicherweise nicht rechtzeitig in die Datenbank geschrieben, was zu einem Speicherüberlauf führt. Daher sollten Sie 10 Threads nicht überschreiten, es sei denn, Ihre Datenbank befindet sich auf einer SSD.

4) Das Speichern der Ansichtsdatei zum Generieren von Analyseergebnissen erfordert Snapshots von mindestens den letzten 7 Tagen. Wenn der Snapshot-Inhalt weniger als 7 Tage alt ist, wird ein Fehler gemeldet und übersprungen. Vorherige Analysearbeiten können durch manuelle Abfragen der Datenbank durchgeführt werden.

5) Da die meisten Leute kein „Kanzhihu“ kopieren müssen, wurde der Eintrag zur Funktion zur automatischen Veröffentlichung von WordPress-Artikeln auskommentiert. Wenn Sie WordPress eingerichtet haben, denken Sie daran, xmlrpc zu aktivieren, richten Sie dann einen Benutzer speziell für die Veröffentlichung von Artikeln ein, konfigurieren Sie die entsprechenden Parameter in config.js und kommentieren Sie den entsprechenden Code in saveviewfile aus.

6) Da Zhihu eine Anti-Leeching-Behandlung für Avatare implementiert hat, haben wir bei der Erfassung von Benutzerinformationen auch die Avatare abgerufen und sie lokal gespeichert. Beim Veröffentlichen von Artikeln haben wir die lokale Avatar-Adresse verwendet. Sie müssen den URL-Pfad im http-Server auf den Ordner verweisen, in dem der Avatar gespeichert ist, oder den Ordner, in dem der Avatar gespeichert ist, direkt im Website-Verzeichnis platzieren.

7) Der Code ist möglicherweise nicht leicht zu lesen. Neben der verwirrenden Rückrufstruktur von node.js selbst liegt der Grund auch darin, dass ich beim ersten Schreiben des Programms gerade erst mit node.js in Berührung gekommen bin. Es gab viele unbekannte Orte, die die Struktur verursachten Es war verwirrend und ich hatte keine Zeit, es zu korrigieren. Ein weiterer Teil war, dass sich nach vielen Malen viele hässliche Beurteilungsbedingungen und Wiederholungsregeln im Patchwork angesammelt hatten. Wenn sie alle entfernt würden, könnte sich das Codevolumen um zwei Drittel reduzieren. Um den stabilen Betrieb eines Systems zu gewährleisten, führt jedoch kein Weg daran vorbei.

8) Dieser Crawler-Quellcode basiert auf dem WTFPL-Protokoll und unterliegt keinen Einschränkungen hinsichtlich Änderung und Veröffentlichung.

Das Obige ist der gesamte Inhalt dieses Artikels. Ich hoffe, er wird für das Studium aller hilfreich sein.

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Beste grafische Einstellungen

1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Seashell Riddle -Lösung

3 Wochen vor By DDD

Was ist neu in Windows 11 KB5054979 und wie Sie Update -Probleme beheben

2 Wochen vor By DDD

Will R.E.P.O. Crossplay haben?

1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7552

CakePHP-Tutorial

1382

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten

Related knowledge

Wie lange dauert es, den Python-Crawler zu erlernen? Oct 25, 2023 am 09:44 AM

Die Zeit, die zum Erlernen von Python-Crawlern benötigt wird, ist von Person zu Person unterschiedlich und hängt von Faktoren wie persönlicher Lernfähigkeit, Lernmethoden, Lernzeit und Erfahrung ab. Beim Erlernen von Python-Crawlern geht es nicht nur um das Erlernen der Technologie selbst, sondern es sind auch gute Fähigkeiten zur Informationsbeschaffung, zur Problemlösung und zur Teamarbeit erforderlich. Durch kontinuierliches Lernen und Üben werden Sie nach und nach zu einem hervorragenden Python-Crawler-Entwickler heranwachsen.

Crawler-Tipps: Umgang mit Cookies in PHP Jun 13, 2023 pm 02:54 PM

Bei der Crawler-Entwicklung ist der Umgang mit Cookies oft ein wesentlicher Bestandteil. Als Statusverwaltungsmechanismus in HTTP werden Cookies normalerweise zum Aufzeichnen von Benutzeranmeldeinformationen und -verhalten verwendet. Sie sind der Schlüssel für Crawler, um die Benutzerauthentifizierung durchzuführen und den Anmeldestatus aufrechtzuerhalten. Bei der PHP-Crawler-Entwicklung erfordert der Umgang mit Cookies die Beherrschung einiger Fähigkeiten und die Beachtung einiger Fallstricke. Im Folgenden erläutern wir ausführlich den Umgang mit Cookies in PHP. 1. So erhalten Sie Cookies beim Schreiben in PHP

Analyse und Lösungen für häufige Probleme von PHP-Crawlern Aug 06, 2023 pm 12:57 PM

Analyse häufiger Probleme und Lösungen für PHP-Crawler Einleitung: Mit der rasanten Entwicklung des Internets ist die Erfassung von Netzwerkdaten in verschiedenen Bereichen zu einem wichtigen Bindeglied geworden. Als weit verbreitete Skriptsprache verfügt PHP über leistungsstarke Funktionen zur Datenerfassung. Eine der am häufigsten verwendeten Technologien sind Crawler. Bei der Entwicklung und Verwendung von PHP-Crawlern stoßen wir jedoch häufig auf einige Probleme. In diesem Artikel werden diese Probleme analysiert, Lösungen für sie bereitgestellt und entsprechende Codebeispiele bereitgestellt. 1. Beschreibung des Problems, dass die Daten der Zielwebseite nicht korrekt geparst werden können.

Effiziente Java-Crawler-Praxis: Weitergabe von Webdaten-Crawling-Techniken Jan 09, 2024 pm 12:29 PM

Java-Crawler-Praxis: So crawlen Sie Webseitendaten effizient Einführung: Mit der rasanten Entwicklung des Internets werden große Mengen wertvoller Daten auf verschiedenen Webseiten gespeichert. Um diese Daten zu erhalten, ist es oft notwendig, manuell auf jede Webseite zuzugreifen und die Informationen einzeln zu extrahieren, was zweifellos eine mühsame und zeitaufwändige Aufgabe ist. Um dieses Problem zu lösen, wurden verschiedene Crawler-Tools entwickelt, von denen der Java-Crawler eines der am häufigsten verwendeten ist. Dieser Artikel führt den Leser dazu, zu verstehen, wie man mit Java einen effizienten Webcrawler schreibt, und demonstriert die Praxis anhand spezifischer Codebeispiele. 1. Die Basis des Reptils

Effizientes Crawlen von Webseitendaten: kombinierte Verwendung von PHP und Selenium Jun 15, 2023 pm 08:36 PM

Mit der rasanten Entwicklung der Internet-Technologie werden Webanwendungen zunehmend in unserer täglichen Arbeit und unserem Leben eingesetzt. Bei der Entwicklung von Webanwendungen ist das Crawlen von Webseitendaten eine sehr wichtige Aufgabe. Obwohl es viele Web-Scraping-Tools auf dem Markt gibt, sind diese Tools nicht sehr effizient. Um die Effizienz des Crawlens von Webseitendaten zu verbessern, können wir die Kombination von PHP und Selenium verwenden. Zuerst müssen wir verstehen, was PHP und Selenium sind. PHP ist mächtig

Praktische Crawler-Praxis: Verwendung von PHP zum Crawlen von Bestandsinformationen Jun 13, 2023 pm 05:32 PM

Der Aktienmarkt war schon immer ein Thema großer Besorgnis. Der tägliche Anstieg, Rückgang und die Veränderungen der Aktien wirken sich direkt auf die Entscheidungen der Anleger aus. Wenn Sie die neuesten Entwicklungen am Aktienmarkt verstehen möchten, müssen Sie Aktieninformationen zeitnah einholen und analysieren. Die traditionelle Methode besteht darin, große Finanzwebsites manuell zu öffnen, um die Aktiendaten einzeln anzuzeigen. Diese Methode ist offensichtlich zu umständlich und ineffizient. Mittlerweile sind Crawler zu einer sehr effizienten und automatisierten Lösung geworden. Als Nächstes zeigen wir, wie Sie mit PHP ein einfaches Aktien-Crawler-Programm schreiben, um Aktiendaten zu erhalten. erlauben

PHP-Praxis: Crawlen von Bilibili-Sperrdaten Jun 13, 2023 pm 07:08 PM

Bilibili ist eine beliebte Sperrvideo-Website in China. Sie ist auch eine Fundgrube, die alle Arten von Daten enthält. Unter ihnen sind Sperrdaten eine sehr wertvolle Ressource, weshalb viele Datenanalysten und Forscher hoffen, diese Daten zu erhalten. In diesem Artikel werde ich die Verwendung der PHP-Sprache zum Crawlen von Bilibili-Sperrdaten vorstellen. Vorbereitungsarbeiten Bevor wir mit dem Crawlen von Sperrdaten beginnen, müssen wir das PHP-Crawler-Framework Symphony2 installieren. Sie können über den folgenden Befehl eingeben

Tutorial zur Verwendung von PHP zum Crawlen von Douban-Filmkritiken Jun 14, 2023 pm 05:06 PM

Da der Filmmarkt immer weiter wächst und sich entwickelt, wird auch die Nachfrage der Menschen nach Filmen immer größer. Was die Filmbewertung angeht, war Douban Film Critics schon immer eine seriösere und beliebtere Wahl. Manchmal müssen wir auch bestimmte Analysen und Verarbeitungen von Douban-Filmrezensionen durchführen, was den Einsatz von Crawler-Technologie erfordert, um Informationen über Douban-Filmrezensionen zu erhalten. In diesem Artikel wird als Referenz ein Tutorial zum Crawlen von Douban-Filmrezensionen mit PHP vorgestellt. Ermitteln Sie die Seitenadresse der Douban-Filme. Bevor Sie Douban-Filmrezensionen crawlen, müssen Sie die Seitenadresse der Douban-Filme ermitteln. OK

See all articles