PHP verwendet die Snoopy-Klasse, um das Seiten-Crawling zu implementieren

墨辰丷
Freigeben: 2023-03-31 10:14:01
Original
1731 Leute haben es durchsucht

Dieser Artikel stellt hauptsächlich vor, wie PHP die Snoopy-Klasse zum Implementieren des Seiten-Crawlings verwendet. Ich hoffe, dass er für alle hilfreich ist.

Das Beispiel in diesem Artikel beschreibt die Verwendung der Snoopy-Klasse in PHP. Die spezifische Analyse lautet wie folgt:

Hier ist eine Demonstration, wie man Webseiteninformationen durch Snoopy in PHP crawlt

/*
You need the snoopy.class.php from 
http://snoopy.sourceforge.net/
*/
include("snoopy.class.php");
$snoopy = new Snoopy;
// need an proxy?:
//$snoopy->proxy_host = "my.proxy.host";
//$snoopy->proxy_port = "8080";
// set browser and referer:
$snoopy->agent = "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)";
$snoopy->referer = "http://www.jonasjohn.de/";
// set some cookies:
$snoopy->cookies["SessionID"] = '238472834723489';
$snoopy->cookies["favoriteColor"] = "blue";
// set an raw-header:
$snoopy->rawheaders["Pragma"] = "no-cache";
// set some internal variables:
$snoopy->maxredirs = 2;
$snoopy->offsiteok = false;
$snoopy->expandlinks = false;
// set username and password (optional)
//$snoopy->user = "joe";
//$snoopy->pass = "bloe";
// fetch the text of the website www.google.com:
if($snoopy->fetchtext("http://www.google.com")){ 
  // other methods: fetch, fetchform, fetchlinks, submittext and submitlinks
  // response code:
  print "response code: ".$snoopy->response_code."<br/>\n";
  // print the headers:
  print "<b>Headers:</b><br/>";
  while(list($key,$val) = each($snoopy->headers)){
    print $key.": ".$val."<br/>\n";
  }
  print "<br/>\n";
 
  // print the texts of the website:
  print "<pre class="brush:php;toolbar:false">".htmlspecialchars($snoopy->results)."
\n"; } else { print "Snoopy: error while fetching document: ".$snoopy->error."\n"; }
Nach dem Login kopieren

Zusammenfassung: Das Obige ist der gesamte Inhalt dieses Artikels, ich hoffe, er wird für das Studium aller hilfreich sein.

Verwandte Empfehlungen:

PHPs Methode zur Implementierung einer Ringwarteschlange basierend auf Memcache

PHP-Betrieb Größenänderung von Bildern, Wasserzeichen, Generieren von Bestätigungscode, Ausgabe und Speichern

PHP liest Instanz der Konfigurationsdateiklasse

Das obige ist der detaillierte Inhalt vonPHP verwendet die Snoopy-Klasse, um das Seiten-Crawling zu implementieren. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
php
Quelle:php.cn
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage