Heim > Backend-Entwicklung > PHP-Tutorial > Wie kann man 404-Fehler beim Web Scraping in PHP effektiv behandeln?

Wie kann man 404-Fehler beim Web Scraping in PHP effektiv behandeln?

Barbara Streisand
Freigeben: 2024-12-03 06:48:09
Original
123 Leute haben es durchsucht

How to Effectively Handle 404 Errors During Web Scraping in PHP?

So gehen Sie effizient mit 404-Fehlern in PHP um

Beim Scraping von Webseiten können 404-Fehler (nicht gefunden) Ihren Codefluss stören. Um solche Unterbrechungen zu vermeiden, ist es wichtig, von Anfang an eine robuste URL-Validierung zu implementieren.

Einschränkungen der fsockopen-Methode

Der Vorschlag des Blogs, fsockopen() zu verwenden, weist Einschränkungen auf, insbesondere wenn Umgang mit Weiterleitungen. Es kann sogar für gültige URLs einen leeren $valid-Wert zurückgeben.

Einführung von „curl“ und „curl_getinfo()“

Die Curl-Bibliothek von PHP bietet einen alternativen Ansatz, der Weiterleitungen und Rückgaben effektiv verarbeitetの詳細なHTTP情報を提供します. Mit Mit curl_getinfo() können Sie den HTTP-Statuscode nach der Ausführung einer cURL-Anfrage abrufen. Hier ist ein Beispielcode, der Curl verwendet, um nach 404-Fehlern zu suchen:

$handle = curl_init($url);
curl_setopt($handle,  CURLOPT_RETURNTRANSFER, TRUE);

/* Get the HTML or whatever is linked in $url. */
$response = curl_exec($handle);

/* Check for 404 (file not found). */
$httpCode = curl_getinfo($handle, CURLINFO_HTTP_CODE);
if($httpCode == 404) {
    /* Handle 404 here. */
}

curl_close($handle);

/* Handle $response here. */
Nach dem Login kopieren

In diesem Code:

  • Eine cURL-Sitzung wird mit curl_init() initialisiert.
  • curl_setopt() konfiguriert die Sitzung so, dass sie einen $response-String zurückgibt.
  • curl_exec() führt die Anfrage aus.
  • curl_getinfo() ruft den HTTP-Statuscode ($httpCode) ab.
  • Wenn $httpCode 404 ist, behandelt der Code den Fehler.

Mit dieser Methode können Sie 404-Fehler effizient behandeln und sicherstellen, dass Ihr Scraping-Code reibungslos läuft.

Das obige ist der detaillierte Inhalt vonWie kann man 404-Fehler beim Web Scraping in PHP effektiv behandeln?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Quelle:php.cn
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Neueste Artikel des Autors
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage