Heim Web-Frontend js-Tutorial Implementierungscode für Web Scraping mit phantomjs_javascript-Kenntnissen

Implementierungscode für Web Scraping mit phantomjs_javascript-Kenntnissen

May 16, 2016 pm 04:35 PM
phantomjs 网页抓取

Da PhantomJS ein Headless-Browser ist, der JS ausführen kann, kann er auch Dom-Knoten ausführen, was sich perfekt für das Web-Crawling eignet.

Zum Beispiel möchten wir den Inhalt von „Today in History“ auf der Webseite stapelweise crawlen. Website

Unter Berücksichtigung der Dom-Struktur müssen wir nur den Titelwert von .list li a ermitteln. Deshalb verwenden wir erweiterte Selektoren, um DOM-Fragmente zu erstellen

var d= ''
var c = document.querySelectorAll('.list li a')
var l = c.length;
for(var i =0;i<l;i++){
d=d+c[i].title+'\n'
}
Nach dem Login kopieren

Danach müssen Sie nur noch den js-Code in phantomjs laufen lassen~

var page = require('webpage').create();
	page.open('http://www.todayonhistory.com/', function (status) { //打开页面
		if (status !== 'success') {
			console.log('FAIL to load the address');
		} else {
			console.log(page.evaluate(function () {
					var d= ''
					var c = document.querySelectorAll('.list li a')
					var l = c.length;
					for(var i =0;i<l;i++){
					d=d+c[i].title+'\n'
					}
						return d
				}))

		}
		phantom.exit();
	});
Nach dem Login kopieren

Schließlich speichern wir es als Catch.js, führen es in DOS aus und geben den Inhalt in eine TXT-Datei aus (Sie können zum Schreiben auch die Datei-API von PhantomJS verwenden)

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Verwendung von Selenium und PhantomJS im Scrapy-Crawler Verwendung von Selenium und PhantomJS im Scrapy-Crawler Jun 22, 2023 pm 06:03 PM

Verwendung von Selenium und PhantomJS in Scrapy-Crawlern Scrapy ist ein hervorragendes Webcrawler-Framework unter Python und wird häufig bei der Datenerfassung und -verarbeitung in verschiedenen Bereichen eingesetzt. Bei der Implementierung des Crawlers ist es manchmal erforderlich, Browservorgänge zu simulieren, um die von bestimmten Websites präsentierten Inhalte abzurufen. In diesem Fall werden Selenium und PhantomJS benötigt. Selenium simuliert menschliche Vorgänge im Browser und ermöglicht uns so die Automatisierung von Webanwendungstests

So verwenden Sie PhantomJS für schnittstellenlose Tests in PHP So verwenden Sie PhantomJS für schnittstellenlose Tests in PHP Jun 27, 2023 am 09:27 AM

In der modernen Webentwicklungsumgebung ist das schnittstellenlose Testen ein unverzichtbarer Schritt, da es Benutzervorgänge simulieren und die Korrektheit der Benutzeroberfläche überprüfen kann. PhantomJS ist ein beliebtes Tool für automatisierte Tests in einer Headless-Umgebung. In diesem Artikel wird erläutert, wie Sie PhantomJS in PHP für schnittstellenlose Tests verwenden. 1. PhantomJS installieren Zuerst müssen Sie PhantomJS auf dem Computer installieren. Sie können es von der offiziellen Website herunterladen und installieren. Im Folgenden sind die Installationsschritte unter Linux aufgeführt: Weiter

Wie verwende ich die gleichzeitige Funktion in der Go-Sprache, um mehrere Webseiten parallel zu crawlen? Wie verwende ich die gleichzeitige Funktion in der Go-Sprache, um mehrere Webseiten parallel zu crawlen? Jul 29, 2023 pm 07:13 PM

Wie verwende ich die gleichzeitige Funktion in der Go-Sprache, um mehrere Webseiten parallel zu crawlen? In der modernen Webentwicklung ist es oft notwendig, Daten von mehreren Webseiten zu extrahieren. Der allgemeine Ansatz besteht darin, Netzwerkanfragen einzeln zu initiieren und auf Antworten zu warten, was weniger effizient ist. Die Go-Sprache bietet leistungsstarke Parallelitätsfunktionen, die die Effizienz durch das parallele Crawlen mehrerer Webseiten verbessern können. In diesem Artikel wird erläutert, wie Sie die gleichzeitige Funktion der Go-Sprache verwenden, um das parallele Crawlen mehrerer Webseiten zu erreichen, sowie einige Vorsichtsmaßnahmen. Zuerst müssen wir gleichzeitige Aufgaben mithilfe des in die Go-Sprache integrierten Schlüsselworts „go“ erstellen. Passieren

Web-Scraping- und Datenextraktionstechniken in Python Web-Scraping- und Datenextraktionstechniken in Python Sep 16, 2023 pm 02:37 PM

Python hat sich für eine Vielzahl von Anwendungen zur Programmiersprache der Wahl entwickelt und seine Vielseitigkeit erstreckt sich auch auf die Welt des Web-Scrapings. Mit seinem umfangreichen Ökosystem an Bibliotheken und Frameworks bietet Python ein leistungsstarkes Toolkit zum Extrahieren von Daten aus Websites und zum Erschließen wertvoller Erkenntnisse. Unabhängig davon, ob Sie ein Datenbegeisterter, Forscher oder Branchenprofi sind, kann Web Scraping in Python eine wertvolle Fähigkeit sein, die riesigen Mengen an online verfügbaren Informationen zu nutzen. In diesem Tutorial tauchen wir in die Welt des Web Scraping ein und erkunden die verschiedenen Techniken und Tools in Python, die zum Extrahieren von Daten aus Websites verwendet werden können. Wir erläutern die Grundlagen des Web Scraping, verstehen die rechtlichen und ethischen Aspekte dieser Praxis und befassen uns mit den praktischen Aspekten der Datenextraktion. Im nächsten Teil dieses Artikels

Wie führt PHP Web-Scraping und Data-Scraping durch? Wie führt PHP Web-Scraping und Data-Scraping durch? Jun 29, 2023 am 08:42 AM

PHP ist eine serverseitige Skriptsprache, die in Bereichen wie Website-Entwicklung und Datenverarbeitung weit verbreitet ist. Unter diesen sind Web-Crawling und Daten-Crawling eines der wichtigsten Anwendungsszenarien von PHP. In diesem Artikel werden die Grundprinzipien und gängigen Methoden zum Crawlen von Webseiten und Daten mit PHP vorgestellt. 1. Die Prinzipien des Web-Crawlings und des Daten-Crawlings Web-Crawling und Daten-Crawling beziehen sich auf den automatischen Zugriff auf Webseiten über Programme und den Erhalt der erforderlichen Informationen. Das Grundprinzip besteht darin, den HTML-Quellcode der Zielwebseite über das HTTP-Protokoll abzurufen und dann den HTML-Quellcode zu analysieren

Wie verwende ich PhantomJS in Java, um die Screenshot-Funktion einer HTML-Seite zu implementieren? Wie verwende ich PhantomJS in Java, um die Screenshot-Funktion einer HTML-Seite zu implementieren? Apr 24, 2023 am 11:37 AM

I. Wie erstelle ich im Miniprogramm ein Hintergrundbild und teile es mit Moments? Derzeit scheint es keine gute Lösung für das Frontend zu geben, daher kann es nur vom Backend unterstützt werden. Das Generieren von Bildern ist ein relativ einfaches und unkompliziertes Szenario, das von JDK direkt unterstützt werden kann. Im Allgemeinen gibt es keine allzu komplizierte Logik, die ich zuvor geschrieben und mit awt implementiert habe: Einfache und einfache Bildsynthesevorlagen direkt unterstützt werden, aber für etwas Komplexeres ist es zweifellos widerlicher, wenn das Backend es unterstützt. Ich weiß nicht, ob es an der falschen Haltung liegt etwas, aber ich war mit den Ergebnissen nicht sehr zufrieden. Bei komplexen Vorlagen muss ich nun wissen, wie ich es unterstützen kann. Das ist die Anleitung für diesen Artikel, die Verwendung von Phantom

Erfahren Sie, wie Sie mit Win10 Bilder stapelweise von Webseiten herunterladen Erfahren Sie, wie Sie mit Win10 Bilder stapelweise von Webseiten herunterladen Jan 03, 2024 pm 02:04 PM

Wenn Sie Win10 zum Herunterladen von Bildern und Videos verwenden, ist ein einzelner Download für Benutzer, die Bilder in großen Mengen herunterladen müssen, sehr unpraktisch. Wie kann ich in Win10 Bilder von Webseiten stapelweise herunterladen? Lass es mich dir jetzt sagen. Hoffe das hilft. So laden Sie Bilder stapelweise von Webseiten unter Win10 herunter. 1. Installieren Sie zunächst Thunder auf dem Computer. 2. Schalten Sie den Computer ein und öffnen Sie den integrierten Edge-Browser. Geben Sie die Suchbegriffe in das Eingabefeld ein und klicken Sie dann auf „Baidu“, wie in der Abbildung unten gezeigt. 4. Klicken Sie in der neuen Benutzeroberfläche auf das Symbol mit den drei kleinen Punkten und wählen Sie dann „IE“ aus 5. Klicken Sie in der IE-Oberfläche, zu der Sie gelangen, mit der rechten Maustaste auf den zunehmend leeren Bereich und wählen Sie 6. Klicken Sie in der Thunder-Download-Oberfläche auf

So verwenden Sie PhantomJs, um die HTML-Bildausgabefunktion in Java abzuschließen So verwenden Sie PhantomJs, um die HTML-Bildausgabefunktion in Java abzuschließen May 12, 2023 am 08:55 AM

I. Wie erstelle ich im Miniprogramm ein Hintergrundbild und teile es mit Moments? Derzeit scheint es keine gute Lösung für das Frontend zu geben, daher kann es nur vom Backend unterstützt werden. Szenarien, die Bilder generieren, sind relativ einfach und können direkt von JDK unterstützt werden. Ich habe zuvor keine zu komplizierte Logik geschrieben und sie mit awt implementiert: einfache und komplexe Vorlagen für Bilder Synthese kann direkt unterstützt werden, aber wenn es komplizierter ist, ist es zweifellos ekelhafter, es vom Backend unterstützen zu lassen. Ich weiß nicht, ob es daran liegt die falsche Haltung oder so, aber ich habe keine sehr zufriedenstellenden Ergebnisse. Bei komplexen Vorlagen muss ich nun wissen, wie ich das unterstützen kann. Das ist die Anleitung für diesen Artikel, die Verwendung von Phantom

See all articles