So lösen Sie das Problem, dass PHP Curl keine Daten crawlen kann
Mit der rasanten Entwicklung des Internets ist die Crawler-Technologie immer ausgereifter geworden. Bei der Entwicklung von Crawlern ist PHP Curl ein klassisches Crawler-Tool. Bei einigen Entwicklern kann es jedoch vorkommen, dass bei der Verwendung von PHP Curl keine Daten erfasst werden können. Was sollten sie in diesem Fall tun? In diesem Artikel werden einige häufige Gründe und Lösungen dafür vorgestellt, warum PHP Curl keine Daten erfassen kann.
1. Keine Header-Informationen hinzugefügt
Wenn die Header-Informationen fehlen, wird der Zugriff wahrscheinlich vom Server verweigert. Die Lösung besteht darin, Header-Informationen in PHP Curl festzulegen. Sie können die Funktion „curl_setopt“ wie folgt festlegen:
$header = array( 'User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3' ); curl_setopt($ch, CURLOPT_HTTPHEADER, $header);
2. Unverarbeiteter Sprung
Wenn Sie PHP Curl zum Crawlen von Webseiten verwenden, springen einige Websites dabei Zeit, Curl Der Vorgang wird standardmäßig beendet. Die Lösung besteht darin, die Option CURLOPT_FOLLOWLOCATION wie folgt hinzuzufügen:
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
3. Unverarbeitete Cookies
Viele Websites verwenden Cookies, um das Benutzerverhalten aufzuzeichnen. Der Crawler wird möglicherweise Probleme mit dem Inhalt haben. Die Lösung besteht darin, die Funktion „curl_setopt“ zu verwenden, um die Optionen „CURLOPT_COOKIEFILE“ und „CURLOPT_COOKIEJAR“ wie folgt festzulegen:
curl_setopt($ch, CURLOPT_COOKIEFILE, $cookie); curl_setopt($ch, CURLOPT_COOKIEJAR, $cookie);
wobei $cookie ein Dateipfad ist, der zum Speichern nicht abgelaufener Cookies verwendet wird.
4. Das Zeitlimit ist nicht festgelegt.
Wenn beim Crawlen einer Webseite die Antwortzeit des Servers zu lang ist, kann dies dazu führen, dass sich PHP Curl in einem Wartezustand befindet. Um diese Situation zu vermeiden, können Sie die Funktion „curl_setopt“ verwenden, um die Optionen „CURLOPT_TIMEOUT“ und „CURLOPT_CONNECTTIMEOUT“ wie folgt festzulegen:
curl_setopt($ch, CURLOPT_TIMEOUT, 30); curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 10);
Unter diesen stellt die Option „CURLOPT_TIMEOUT“ die Zeitüberschreitung der gesamten Anfrage in Sekunden dar; die Option „CURLOPT_CONNECTTIMEOUT“. Die Option stellt die Zeitüberschreitung für die Verbindung zum Server dar. Zeit in Sekunden.
5. Nicht den richtigen Proxy verwenden
Einige Websites schränken Anfragen von derselben IP ein, um den Crawler-Zugriff zu verhindern. Die Lösung besteht darin, einen Proxy zu verwenden. Verwenden Sie die Funktion „curl_setopt“, um die Optionen „CURLOPT_PROXY“ und „CURLOPT_PROXYPORT“ wie folgt festzulegen:
curl_setopt($ch, CURLOPT_PROXY, '代理服务器地址'); curl_setopt($ch, CURLOPT_PROXYPORT, '代理服务器端口');
6. Die SSL-Überprüfung ist nicht aktiviert
Einige Websites müssen das SSL-Verschlüsselungsprotokoll verwenden für die Datenübertragung. Wenn SSL nicht aktiviert ist, stellen Sie sicher, dass PHP Curl die Daten nicht erfassen kann. Die Lösung besteht darin, die Funktion „curl_setopt“ zu verwenden, um die Optionen „CURLOPT_SSL_VERIFYPEER“ und „CURLOPT_SSL_VERIFYHOST“ wie folgt festzulegen:
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false); curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, false);
Unter diesen gibt die Option „CURLOPT_SSL_VERIFYPEER“ an, ob das Peer-Zertifikat überprüft werden soll. Verwenden Sie „false“, um anzugeben, dass keine Überprüfung erfolgen soll ; die Option CURLOPT_SSL_VERIFYHOST gibt an, ob die Öffentlichkeit im Zertifikat überprüft werden soll. Ob der Name mit der URI übereinstimmt, verwenden Sie false, um anzugeben, dass keine Überprüfung erfolgt.
Die oben genannten sind einige häufige Gründe und Lösungen dafür, warum PHP Curl keine Daten erfassen kann. Wenn wir auf einen Crawling-Fehler stoßen, müssen wir das Problem Schritt für Schritt beheben und verschiedene Methoden anwenden, um das Problem zu lösen. Ich glaube, dass wir, solange wir weiterhin hart arbeiten, die PHP-Curl-Crawler-Technologie beherrschen und unsere Crawler-Entwicklungsaufgaben erfolgreich abschließen können.
Das obige ist der detaillierte Inhalt vonPHP Curl kann nicht crawlen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!