이 장에서는 PHP가 QueryList를 사용하여 js 동적 렌더링 페이지를 쉽게 수집하는 방법을 소개합니다. 이는 특정 참조 가치가 있으므로 도움이 될 수 있습니다.
QueryList는 수집을 위해 jQuery를 사용하며 풍부한 플러그인을 가지고 있습니다. QueryList가 PhantomJS 플러그인을 사용하여 JS에서 동적으로 생성된 페이지 콘텐츠를 캡처하는 것을 보여드리겠습니다.
1. 설치
Composer를 사용하여 설치:
1. QueryList 설치
composer require jaeger/querylist
GitHub: https://github.com/jae-jae/QueryList
2. in
composer require jaeger/querylist-phantomjs
GitHub: https://github.com/jae-jae/QueryList-PhantomJS
2 PhantomJS 바이너리 파일을 다운로드하세요
PhantomJS 공식 웹사이트: http://phantomjs.org , 해당 플랫폼 PhantomJS 바이너리를 다운로드하세요.
3. 플러그인 API
QueryList 브라우저($url,$debug = false,$commandOpt = []): 브라우저를 사용하여 연결을 엽니다
4. "Today"를 수집하려면 "Today's Toutiao"의 모바일 버전을 예로 들어 보겠습니다. "Today's Toutiao"의 모바일 버전은 React 프레임워크를 기반으로 하며 콘텐츠는 순전히 동적으로 렌더링됩니다. 다음은 QueryList의 PhantomJs 플러그인 사용법을 보여줍니다.
1. 플러그인 설치
use QL\QueryList; use QL\Ext\PhantomJs; $ql = QueryList::getInstance(); // 安装时需要设置PhantomJS二进制文件路径 $ql->use(PhantomJs::class,'/usr/local/bin/phantomjs'); //or Custom function name $ql->use(PhantomJs::class,'/usr/local/bin/phantomjs','browser');
2.Example-1
동적으로 렌더링된 HTML 가져오기:
$html = $ql->browser('https://m.toutiao.com')->getHtml(); print_r($html);
모든 p 태그 텍스트 콘텐츠 가져오기:
$data = $ql->browser('https://m.toutiao.com')->find('p')->texts(); print_r($data->all());
출력:
Array( [0] => 自拍模式开启!国庆假期我和国旗合个影 [1] => 你旅途已开始 他们仍在自己的岗位上为你的假期保驾护航 [2] => 喜极而泣,都教授终于回到地球了! //....)
http 프록시 사용:
// 更多选项可以查看文档: http://phantomjs.org/api/command-line.html $ql->browser('https://m.toutiao.com',true,[ // 使用http代理 '--proxy' => '192.168.1.42:8080', '--proxy-type' => 'http' ])
3.Example-2
복잡한 요청 사용자 정의:
$data = $ql->browser(function (\JonnyW\PhantomJs\Http\RequestInterface $r){ $r->setMethod('GET'); $r->setUrl('https://m.toutiao.com'); $r->setTimeout(10000); // 10 seconds $r->setDelay(3); // 3 seconds return $r; })->find('p')->texts(); print_r($data->all());
디버그 모드 활성화 및 로컬에서 쿠키 파일 로드:
$data = $ql->browser(function (\JonnyW\PhantomJs\Http\RequestInterface $r){ $r->setMethod('GET'); $r->setUrl('https://m.toutiao.com'); $r->setTimeout(10000); // 10 seconds $r->setDelay(3); // 3 seconds return $r; },true,[ '--cookies-file' => '/path/to/cookies.txt' ])->rules([ 'title' => ['p','text'], 'link' => ['a','href'] ])->query()->getData(); print_r($data->all());
위 내용은 PHP는 어떻게 QueryList를 사용하여 동적으로 렌더링된 js 페이지를 쉽게 수집합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!