Die Feststellung, dass in Ihrem Code Probleme auftreten, weil URLs 404 zurückgeben, ist ein häufiges Problem beim Web-Scraping. Um dieses Problem effizient zu lösen, ist die Implementierung eines Tests am Anfang des Codes unerlässlich, um zu überprüfen, ob eine URL eine 404-Antwort hat.
Während Vorschläge wie die Verwendung von @fsockopen() möglicherweise keine Weiterleitungen berücksichtigen, ist die Verwendung ein geeigneterer Ansatz Curls Funktion „curl_getinfo()“. So geht's:
// Initialize a cURL handle with the given URL $handle = curl_init($url); // Enable return of transfer as a string curl_setopt($handle, CURLOPT_RETURNTRANSFER, TRUE); // Get the response (HTML or data linked to the URL) $response = curl_exec($handle); // Check for 404 (file not found) response $httpCode = curl_getinfo($handle, CURLINFO_HTTP_CODE); // Handle 404 if ($httpCode == 404) { /* Perform your custom 404 handling here. */ } // Close the curl session curl_close($handle); // Continue processing with the retrieved $response
Durch die Einbindung dieses Codes können Sie effektiv nach 404-Antworten suchen, sodass Ihr Code die problematischen URLs überspringen und mit den verfügbaren fortfahren kann.
Das obige ist der detaillierte Inhalt vonWie kann ich vor dem Web Scraping effizient nach 404-Fehlern in PHP suchen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!