PHP 컬이 크롤링할 수 없습니다.

王林
풀어 주다: 2023-05-25 09:14:37
원래의
1147명이 탐색했습니다.

PHP 컬이 데이터를 크롤링할 수 없는 문제를 해결하는 방법

인터넷의 급속한 발전과 함께 크롤러 기술은 점점 더 성숙해졌습니다. 크롤러를 개발할 때 php 컬은 고전적인 크롤러 도구입니다. 그러나 일부 개발자는 php 컬을 사용할 때 데이터를 캡처할 수 없는 상황에 직면할 수 있습니다. 이 경우 어떻게 해야 합니까? 이 기사에서는 PHP 컬이 데이터를 캡처할 수 없는 몇 가지 일반적인 이유와 해결 방법을 소개합니다.

1. 헤더 정보가 추가되지 않았습니다

거의 모든 웹사이트에서 헤더 정보가 누락되면 서버에서 액세스를 거부할 가능성이 높습니다. 해결책은 PHP 컬에 헤더 정보를 설정하는 것입니다. 다음과 같이 컬_setopt 기능 설정을 사용할 수 있습니다:

$header = array(
    'User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
);
curl_setopt($ch, CURLOPT_HTTPHEADER, $header);
로그인 후 복사

2. 처리되지 않은 점프

PHP 컬을 사용하여 웹 페이지를 크롤링할 때 일부 웹사이트는 점프하고 컬은 기본적으로 작업을 종료합니다. 해결 방법은 다음과 같이 CURLOPT_FOLLOWLOCATION 옵션을 추가하는 것입니다.

curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
로그인 후 복사

3. 쿠키가 처리되지 않습니다.

많은 웹사이트에서 쿠키를 사용하여 사용자 행동을 기록합니다. 쿠키가 처리되지 않으면 캡처된 콘텐츠에 문제가 발생할 수 있습니다. 해결 방법은 다음과 같이 curl_setopt 함수를 사용하여 CURLOPT_COOKIEFILE 및 CURLOPT_COOKIEJAR 옵션을 설정하는 것입니다.

curl_setopt($ch, CURLOPT_COOKIEFILE, $cookie);
curl_setopt($ch, CURLOPT_COOKIEJAR, $cookie);
로그인 후 복사

그 중 $cookie는 만료되지 않은 쿠키를 저장하는 데 사용되는 파일 경로입니다.

4. 타임아웃이 설정되어 있지 않습니다

웹 페이지 크롤링 시 서버 응답 시간이 너무 길면 php 컬이 대기 상태가 될 수 있습니다. 이러한 상황을 방지하려면 다음과 같이 curl_setopt 함수를 사용하여 CURLOPT_TIMEOUT 및 CURLOPT_CONNECTTIMEOUT 옵션을 설정할 수 있습니다.

curl_setopt($ch, CURLOPT_TIMEOUT, 30);
curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 10);
로그인 후 복사

그 중 CURLOPT_TIMEOUT 옵션은 전체 요청의 시간 초과를 초 단위로 나타냅니다. 몇 초 만에 서버로 전송됩니다.

5. 올바른 프록시를 사용하지 않음

일부 웹사이트에서는 크롤러 액세스를 방지하기 위해 동일한 IP의 요청을 제한합니다. 해결책은 프록시를 사용하는 것입니다. cur_setopt 함수를 사용하여 CURLOPT_PROXY 옵션과 CURLOPT_PROXYPORT 옵션을 다음과 같이 설정합니다.

curl_setopt($ch, CURLOPT_PROXY, '代理服务器地址');
curl_setopt($ch, CURLOPT_PROXYPORT, '代理服务器端口');
로그인 후 복사

6. SSL 확인이 켜져 있지 않습니다.

일부 웹사이트에서는 데이터 전송을 위해 SSL 암호화 프로토콜을 사용해야 합니다. 컬은 데이터를 캡처할 수 없습니다. 해결 방법은 다음과 같이 curl_setopt 함수를 사용하여 CURLOPT_SSL_VERIFYPEER 옵션과 CURLOPT_SSL_VERIFYHOST 옵션을 설정하는 것입니다.

curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);
curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, false);
로그인 후 복사

그 중 CURLOPT_SSL_VERIFYPEER 옵션은 피어 인증서를 확인할지 여부를 나타내며, false를 사용하면 확인하지 않음을 나타냅니다. 인증서의 일반 이름이 URI와 일치하는지 확인하세요. 확인하지 않으려면 false를 사용하세요.

위 내용은 PHP 컬이 데이터를 캡처할 수 없는 몇 가지 일반적인 이유와 해결 방법입니다. 크롤링 오류가 발생하면 문제를 단계별로 해결하고 다양한 방법을 사용하여 문제를 해결해야 합니다. 저는 우리가 계속해서 열심히 노력한다면 php 컬 크롤러 기술을 익히고 크롤러 개발 작업을 성공적으로 완료할 수 있다고 믿습니다.

위 내용은 PHP 컬이 크롤링할 수 없습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿
회사 소개 부인 성명 Sitemap
PHP 중국어 웹사이트:공공복지 온라인 PHP 교육,PHP 학습자의 빠른 성장을 도와주세요!