PHP を使用して Baidu Reading をクロールする方法の例-PHPチュートリアル-php.cn

ホームページ

バックエンド開発

PHPチュートリアル

PHP を使用して Baidu Reading をクロールする方法の例

黄舟

Feb 23, 2017 am 09:27 AM

はじめに

この記事では主に PHP を使用して Baidu Reading をキャプチャする方法を紹介します。以下ではあまり説明しません。

クローリング方法は以下の通りです

まずブラウザで閲覧ページを開き、ソースコードを確認すると、小説の内容がページに直接書かれていないことが分かります。非同期でロードされます。

そこで、Chrome の開発者ツールをネットワーク列に切り替え、閲覧ページを更新して、XHR とスクリプトの 2 つのカテゴリに焦点を当てました。

調査の結果、小説の内容に近い jsonp リクエストがあることが分かりました。リクエストされたアドレスは
http://www.php.cn/ です。
返されるのは

jsonp

ログイン後にコピー

です。アドレスの

callback=wenku7

ログイン後にコピー

を削除すると、返されるのは

json

ログイン後にコピー

文字列になります。これは解析が非常に便利で、PHP で配列に直接変換できます。

返されたデータの構造を分析してみましょう。返された

json

ログイン後にコピー

文字列の後には、t 属性と c 属性が続きます。t 属性は、このノードのラベルを示すために使用されます。 h2 p 待て、c 属性はコンテンツですが、2 つの可能性があります。1 つは文字列、もう 1 つは配列、そして配列の各要素はノードです。

この種の構造は分析するのに最適であり、1 回の再帰で実行できます

最終的なコードは次のとおりです:

<?php
class BaiduYuedu {
 protected $bookId;
 protected $bookToken;
 protected $cookie;
 protected $result;
 public function __construct($bookId, $bookToken, $cookie){
  $this->bookId = $bookId;
  $this->bookToken = $bookToken;
  $this->cookie = $cookie;
 }
 public static function parseNode($node){
  $str = &#39;&#39;;
  if(is_string($node[&#39;c&#39;])){
   $str .= $node[&#39;c&#39;];
  }else if(is_array($node[&#39;c&#39;])){
   foreach($node[&#39;c&#39;] as $d){
    $str .= self::parseNode($d);
   }
  }
  switch($node[&#39;t&#39;]){
   case &#39;h2&#39;:
    $str .= "\n\n";
    break;
   case &#39;br&#39;:
   case &#39;p&#39;:
   case &#39;p&#39;:
    $str .= "\n";
    break;
   case &#39;img&#39;:
   case &#39;span&#39;:
    break;
   case &#39;obj&#39;:
    $tmp = &#39;(&#39; . self::parseNode($node[&#39;data&#39;][0]) . &#39;)&#39;;
    $str .= str_replace("\n", &#39;&#39;, $tmp);
    break;
   default:
    trigger_error(&#39;Unkown type:&#39;.$node[&#39;t&#39;], E_USER_WARNING);
    break;
  }
  return $str;
 }
 public function get($page = 1){
  echo "getting page {$page}...\n";
  $ch = curl_init();
  $url = sprintf(&#39;http://wenku.baidu.com/content/%s/?m=%s&type=json&cn=%d&#39;, $this->bookId, $this->token, $page);
  curl_setopt_array($ch, array(
   CURLOPT_URL   => $url,
   CURLOPT_RETURNTRANSFER => 1,
   CURLOPT_HEADER   => 0,
   CURLOPT_HTTPHEADER  => array(&#39;Cookie: &#39;. $this->cookie)
  ));
  $ret = json_decode(curl_exec($ch), true);
  curl_close($ch);
  $str = &#39;&#39;;
  if(!empty($ret)){
   $str .= self::parseNode($ret);
   $str .= $this->get($page + 1);
  }
  return $str;
 }
 public function start(){
  $this->result = $this->get();
 }
 public function getResult(){
  return $this->result;
 }
 public function saveTo($path){
  if(empty($this->result)){
   trigger_error(&#39;Result is empty&#39;, E_USER_ERROR);
   return;
  }
  file_put_contents($path, $this->result);
  echo "save to {$path}\n";
 }
}
//使用示例
$yuedu = new BaiduYuedu(&#39;49422a3769eae009581becba&#39;, &#39;8ed1dedb240b11bf0731336eff95093f&#39;, &#39;你的百度域cookie&#39;);
$yuedu->start();
$yuedu->saveTo(&#39;result.txt&#39;);

ログイン後にコピー

このクラスの最初の 2 つのパラメーターは、導入部分から取得できます。小説のページでは、最初のパラメータ

bookId

ログイン後にコピー

は、

url

ログイン後にコピー

の

ebook

ログイン後にコピー

に続く文字列です。2番目のパラメータ

bookToken

ログイン後にコピー

は、ページのソースコード内で

bdjsonUrl

ログイン後にコピー

を検索します。。

注:
Baidu

ログイン後にコピー

が渡されていないか、Baidu

cookie

ログイン後にコピー

が無効な場合、完全なコンテンツをキャプチャするには、

cookie

ログイン後にコピー

が正常に使用できることを確認する必要があります。

概要

上記は、PHP を使用して Baidu Reading をキャプチャする方法の例です。その他の関連コンテンツについては、PHP 中国語 Web サイト (www.php.cn) に注目してください。

-->

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7478

CakePHP チュートリアル

1377

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

Ubuntu および Debian 用の PHP 8.4 インストールおよびアップグレードガイド Dec 24, 2024 pm 04:42 PM

PHP 8.4 では、いくつかの新機能、セキュリティの改善、パフォーマンスの改善が行われ、かなりの量の機能の非推奨と削除が行われています。このガイドでは、Ubuntu、Debian、またはその派生版に PHP 8.4 をインストールする方法、または PHP 8.4 にアップグレードする方法について説明します。