PHP는 어떻게 QueryList를 사용하여 동적으로 렌더링된 js 페이지를 쉽게 수집합니까?

青灯夜游
풀어 주다: 2023-04-04 06:48:02
원래의
3603명이 탐색했습니다.

이 장에서는 PHP가 QueryList를 사용하여 js 동적 렌더링 페이지를 쉽게 수집하는 방법을 소개합니다. 이는 특정 참조 가치가 있으므로 도움이 될 수 있습니다.

QueryList는 수집을 위해 jQuery를 사용하며 풍부한 플러그인을 가지고 있습니다. QueryList가 PhantomJS 플러그인을 사용하여 JS에서 동적으로 생성된 페이지 콘텐츠를 캡처하는 것을 보여드리겠습니다.

1. 설치

Composer를 사용하여 설치:

1. QueryList 설치

composer require jaeger/querylist
로그인 후 복사

GitHub: https://github.com/jae-jae/QueryList

2. in

composer require jaeger/querylist-phantomjs
로그인 후 복사

GitHub: https://github.com/jae-jae/QueryList-PhantomJS

2 PhantomJS 바이너리 파일을 다운로드하세요

PhantomJS 공식 웹사이트: http://phantomjs.org , 해당 플랫폼 PhantomJS 바이너리를 다운로드하세요.

3. 플러그인 API

QueryList 브라우저($url,$debug = false,$commandOpt = []): 브라우저를 사용하여 연결을 엽니다

4. "Today"를 수집하려면 "Today's Toutiao"의 모바일 버전을 예로 들어 보겠습니다. "Today's Toutiao"의 모바일 버전은 React 프레임워크를 기반으로 하며 콘텐츠는 순전히 동적으로 렌더링됩니다. 다음은 QueryList의 PhantomJs 플러그인 사용법을 보여줍니다.

1. 플러그인 설치

use QL\QueryList;
use QL\Ext\PhantomJs;

$ql = QueryList::getInstance();
// 安装时需要设置PhantomJS二进制文件路径
$ql->use(PhantomJs::class,'/usr/local/bin/phantomjs');
//or Custom function name
$ql->use(PhantomJs::class,'/usr/local/bin/phantomjs','browser');
로그인 후 복사

2.Example-1

동적으로 렌더링된 HTML 가져오기:

$html = $ql->browser('https://m.toutiao.com')->getHtml();
print_r($html);
로그인 후 복사

모든 p 태그 텍스트 콘텐츠 가져오기:

$data = $ql->browser('https://m.toutiao.com')->find('p')->texts();
print_r($data->all());
로그인 후 복사

출력:

Array(
    [0] => 自拍模式开启!国庆假期我和国旗合个影
    [1] => 你旅途已开始 他们仍在自己的岗位上为你的假期保驾护航
    [2] => 喜极而泣,都教授终于回到地球了!    //....)
로그인 후 복사

http 프록시 사용:

// 更多选项可以查看文档: 
http://phantomjs.org/api/command-line.html
$ql->browser('https://m.toutiao.com',true,[    
// 使用http代理 
'--proxy' => '192.168.1.42:8080',    '--proxy-type' => 'http'
])
로그인 후 복사

3.Example-2

복잡한 요청 사용자 정의:

$data = $ql->browser(function (\JonnyW\PhantomJs\Http\RequestInterface $r){
    $r->setMethod('GET');
    $r->setUrl('https://m.toutiao.com');
    $r->setTimeout(10000); // 10 seconds
    $r->setDelay(3); // 3 seconds
    return $r;
})->find('p')->texts();

print_r($data->all());
로그인 후 복사

디버그 모드 활성화 및 로컬에서 쿠키 파일 로드:

$data = $ql->browser(function (\JonnyW\PhantomJs\Http\RequestInterface $r){
    $r->setMethod('GET');
    $r->setUrl('https://m.toutiao.com');
    $r->setTimeout(10000); // 10 seconds
    $r->setDelay(3); // 3 seconds
    return $r;
},true,[
    '--cookies-file' => '/path/to/cookies.txt'
])->rules([
    'title' => ['p','text'],
    'link' => ['a','href']
])->query()->getData();

print_r($data->all());
로그인 후 복사

위 내용은 PHP는 어떻게 QueryList를 사용하여 동적으로 렌더링된 js 페이지를 쉽게 수집합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿