PHP 데이터 크롤링 컬 예제에 대한 자세한 설명

小云云
풀어 주다: 2023-03-20 19:26:01
원래의
1903명이 탐색했습니다.

우선, 페이지 데이터 콘텐츠에는 두 가지 방법이 있다는 것을 알아야 합니다(크롤링할 데이터에는 두 가지 방법만 있음). 첫째, 직접 렌더링(템플릿 페이지에 대한 mvc 템플릿 할당을 기반으로), 둘째, 획득 인터페이스를 통해 JS로 렌더링된 후(인터페이스에서 반환됨) )

그런 다음 데이터를 찾고 있다면:

직접 액세스한 주소가 원하는 콘텐츠가 포함된 텍스트를 얻을 수 있는지 여부에 따라 다릅니다(템플릿 페이지에 할당됨). mvc 템플릿 기반)

그렇지 않은 경우

을 통해 얻은 인터페이스가 무엇인지 확인하세요. 추가 링크에 대해서도 마찬가지입니다.

직접 렌더링되는 경우 데이터와 태그는 세 번째-를 통해 분리될 수 있습니다. xpath 또는 csspath와 같은 파티 라이브러리

직접 렌더링되지 않으면 JS가 생성합니다. 다음 방문을 위해 연결해야 하는 매개변수에 따라 링크(쿠키 포함)를 연결해야 합니다.

참고 1: 값을 여러 번 가져올 수 없으므로 수동으로 변경해야 합니다. Cookie

참고 2: 인터페이스인 경우 URL의 매개변수가 변경되므로 요청한 URL이 매일 변경된다는 점에 유의하세요. , 아래로 크롤링할 수 없습니다. (이렇게 데이터베이스에 URL을 저장하고 크롤링할 때 확인할 수 있습니다.) 나와서 매개변수를 철자하고 컬에 던집니다.

참고 3: 또한, 저는 그렇지 않습니다. WeChat의 속도 제한에 대해 잘 모르겠습니다. 시간에 민감하지 않다면 약 10초 안에 한 바퀴만 오르면 됩니다.

가장 중요한 것은 로그인하기 전에 시뮬레이션할 필요가 없다는 것입니다. 로그인하고 인터페이스를 찾아 브라우저에서 실행해 보세요. (반환된 데이터가 있으면 요청에 필요한 쿠키와 매개변수만 가져와야 함을 증명합니다.) 더 이상 코드 스캔을 시뮬레이션할 필요가 없습니다.

관련 추천:

PHP에서 CURL 사용에 대한 자세한 설명

PHP의 강력한 CURL POST 클래스

PHP의 컬 변장 소스 정보

위 내용은 PHP 데이터 크롤링 컬 예제에 대한 자세한 설명의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿