PHP의 CURL 일반 크롤링 페이지 절차는 다음과 같습니다.
$url = 'http://www.baidu.com'; $ch = curl_init(); curl_setopt($ch, CURLOPT_URL, $url); curl_setopt($ch, CURLOPT_VERBOSE, true); curl_setopt($ch, CURLOPT_HEADER, true); curl_setopt($ch, CURLOPT_NOBODY, true); curl_setopt($ch, CURLOPT_CUSTOMREQUEST, 'GET'); curl_setopt($ch, CURLOPT_RETURNTRANSFER, true); curl_setopt($ch, CURLOPT_TIMEOUT, 20); curl_setopt($ch, CURLOPT_AUTOREFERER, true); curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true); $ret = curl_exec($ch); $info = curl_getinfo($ch); curl_close($ch);
302 상태를 크롤링하는 경우 크롤링 과정에서 일부 점프가 필요하기 때문입니다. 다음 링크는 매개변수를 전달합니다. , 다음 링크에서도 해당 매개변수가 수신되지 않으면 불법 액세스로 설정됩니다.
curl_setopt($curl, CURLOPT_CUSTOMREQUEST, 'GET');
디스플레이가 정상이어야 합니다.
위의 내용은 함수를 잡는 데 사용되며 거의 문제가 없을 것입니다. CURLOPT_CUSTOMREQUEST 관련 정보를 확인할 수 있습니다.
HTTP 요청에 "GET" 또는 "HEAD" 대신 맞춤 요청 메시지를 사용하세요. 이는 "DELETE" 또는 기타 더 비밀스러운 HTTP 요청을 수행하는 데 유용합니다. 유효한 값은 "GET", "POST", "CONNECT" 등입니다. 즉, 여기에 전체 HTTP 요청을 입력하지 마세요. 예를 들어 "GET /index.html HTTP/1.0rnrn"을 입력하면 올바르지 않습니다.
302 점프 후 페이지를 캡처하는 PHP 컬의 예제에 대한 더 많은 관련 기사를 보려면 PHP 중국어 웹사이트를 주목하세요!