はじめに
この記事では主に PHP を使用して Baidu Reading をキャプチャする方法を紹介します。以下ではあまり説明しません。
クローリング方法は以下の通りです
まずブラウザで閲覧ページを開き、ソースコードを確認すると、小説の内容がページに直接書かれていないことが分かります。非同期でロードされます。
そこで、Chrome の開発者ツールをネットワーク列に切り替え、閲覧ページを更新して、XHR とスクリプトの 2 つのカテゴリに焦点を当てました。
調査の結果、小説の内容に近い jsonp リクエストがあることが分かりました。リクエストされたアドレスは
http://www.php.cn/ です。
返されるのは
jsonp
callback=wenku7
json
返されたデータの構造を分析してみましょう。返された
json
この種の構造は分析するのに最適であり、1 回の再帰で実行できます
最終的なコードは次のとおりです:
<?php class BaiduYuedu { protected $bookId; protected $bookToken; protected $cookie; protected $result; public function __construct($bookId, $bookToken, $cookie){ $this->bookId = $bookId; $this->bookToken = $bookToken; $this->cookie = $cookie; } public static function parseNode($node){ $str = ''; if(is_string($node['c'])){ $str .= $node['c']; }else if(is_array($node['c'])){ foreach($node['c'] as $d){ $str .= self::parseNode($d); } } switch($node['t']){ case 'h2': $str .= "\n\n"; break; case 'br': case 'p': case 'p': $str .= "\n"; break; case 'img': case 'span': break; case 'obj': $tmp = '(' . self::parseNode($node['data'][0]) . ')'; $str .= str_replace("\n", '', $tmp); break; default: trigger_error('Unkown type:'.$node['t'], E_USER_WARNING); break; } return $str; } public function get($page = 1){ echo "getting page {$page}...\n"; $ch = curl_init(); $url = sprintf('http://wenku.baidu.com/content/%s/?m=%s&type=json&cn=%d', $this->bookId, $this->token, $page); curl_setopt_array($ch, array( CURLOPT_URL => $url, CURLOPT_RETURNTRANSFER => 1, CURLOPT_HEADER => 0, CURLOPT_HTTPHEADER => array('Cookie: '. $this->cookie) )); $ret = json_decode(curl_exec($ch), true); curl_close($ch); $str = ''; if(!empty($ret)){ $str .= self::parseNode($ret); $str .= $this->get($page + 1); } return $str; } public function start(){ $this->result = $this->get(); } public function getResult(){ return $this->result; } public function saveTo($path){ if(empty($this->result)){ trigger_error('Result is empty', E_USER_ERROR); return; } file_put_contents($path, $this->result); echo "save to {$path}\n"; } } //使用示例 $yuedu = new BaiduYuedu('49422a3769eae009581becba', '8ed1dedb240b11bf0731336eff95093f', '你的百度域cookie'); $yuedu->start(); $yuedu->saveTo('result.txt');
このクラスの最初の 2 つのパラメーターは、導入部分から取得できます。小説のページでは、最初のパラメータ
bookId
url
ebook
bookToken
bdjsonUrl
注:
Baidu
m
cookie
cookie
概要
上記は、PHP を使用して Baidu Reading をキャプチャする方法の例です。その他の関連コンテンツについては、PHP 中国語 Web サイト (www.php.cn) に注目してください。