Découvrir que votre code rencontre des problèmes en raison d'URL renvoyant 404 est un problème courant dans le web scraping. Pour résoudre ce problème efficacement, il est essentiel d'implémenter un test au début du code pour vérifier si une URL a une réponse 404.
Bien que des suggestions telles que l'utilisation de @fsockopen() ne tiennent pas compte des redirections, une approche plus appropriée consiste à utiliser La fonction curl_getinfo() de curl. Voici comment :
// Initialize a cURL handle with the given URL $handle = curl_init($url); // Enable return of transfer as a string curl_setopt($handle, CURLOPT_RETURNTRANSFER, TRUE); // Get the response (HTML or data linked to the URL) $response = curl_exec($handle); // Check for 404 (file not found) response $httpCode = curl_getinfo($handle, CURLINFO_HTTP_CODE); // Handle 404 if ($httpCode == 404) { /* Perform your custom 404 handling here. */ } // Close the curl session curl_close($handle); // Continue processing with the retrieved $response
En incorporant ce code, vous pouvez vérifier efficacement les réponses 404, permettant à votre code d'ignorer les URL problématiques et de passer à celles disponibles.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!