So gehen Sie effizient mit 404-Fehlern in PHP um
Beim Scraping von Webseiten können 404-Fehler (nicht gefunden) Ihren Codefluss stören. Um solche Unterbrechungen zu vermeiden, ist es wichtig, von Anfang an eine robuste URL-Validierung zu implementieren.
Einschränkungen der fsockopen-Methode
Der Vorschlag des Blogs, fsockopen() zu verwenden, weist Einschränkungen auf, insbesondere wenn Umgang mit Weiterleitungen. Es kann sogar für gültige URLs einen leeren $valid-Wert zurückgeben.
Einführung von „curl“ und „curl_getinfo()“
Die Curl-Bibliothek von PHP bietet einen alternativen Ansatz, der Weiterleitungen und Rückgaben effektiv verarbeitetの詳細なHTTP情報を提供します. Mit Mit curl_getinfo() können Sie den HTTP-Statuscode nach der Ausführung einer cURL-Anfrage abrufen. Hier ist ein Beispielcode, der Curl verwendet, um nach 404-Fehlern zu suchen:
$handle = curl_init($url); curl_setopt($handle, CURLOPT_RETURNTRANSFER, TRUE); /* Get the HTML or whatever is linked in $url. */ $response = curl_exec($handle); /* Check for 404 (file not found). */ $httpCode = curl_getinfo($handle, CURLINFO_HTTP_CODE); if($httpCode == 404) { /* Handle 404 here. */ } curl_close($handle); /* Handle $response here. */
In diesem Code:
Mit dieser Methode können Sie 404-Fehler effizient behandeln und sicherstellen, dass Ihr Scraping-Code reibungslos läuft.
Das obige ist der detaillierte Inhalt vonWie kann man 404-Fehler beim Web Scraping in PHP effektiv behandeln?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!