PHP クローラーの実践: Baidu の検索結果から必要なデータを抽出する-PHPチュートリアル-php.cn

アイデア

コードの記述

Baidu 検索結果の HTML ページを取得します

HTML ページの解析

結果を返す

結論

ホームページ

バックエンド開発

PHPチュートリアル

PHP クローラーの実践: Baidu の検索結果から必要なデータを抽出する

PHPz

Jun 13, 2023 am 10:22 AM

php 爬虫類データ抽出

インターネットの急速な発展により、情報爆発の時代が到来しました。このような時代において、検索エンジンは私たちが情報を取得するための主要なツールとなり、検索エンジンから得られる膨大なデータは私たちの想像を超えています。ただし、特定の分野の研究者やデータアナリストにとって、必要な情報はこれらの検索結果のデータのほんの一部である可能性があります。この場合、必要なデータを正確に取得するにはクローラーを使用する必要があります。

この記事では、PHP を使用して、Baidu の検索結果から必要なデータを抽出する簡単なクローラープログラムを作成します。このプログラムの核心は、PHP の cURL ライブラリを使用して HTTP リクエストをシミュレートし、正規表現やその他のメソッドを使用して HTML ページを解析することです。

アイデア

クローラープログラムの作成を開始する前に、いくつかの質問を明確にする必要があります。

目標: Baidu の検索結果ページからクロールする必要があります。どのようなデータですか？
URL: データを取得するにはどの URL が必要ですか?
データ形式: Baidu の検索結果ページのデータの形式は何ですか?

どのようなデータを取得する必要があるかを考えるとき、キーワード「PHP クローラー」を例に考えてみましょう。このキーワードを Baidu で検索すると、次の情報が表示されます。

検索結果の総数
#各検索結果のタイトル
各検索結果の説明検索結果
各検索結果の URL

次に、Baidu の検索結果、説明、URL から各結果のタイトルを抽出することを目標として定義できます。

データを取得するための最初のステップは、取得したい URL を明確にすることです。この例では、取得する必要がある URL は次のとおりです: https://www.baidu.com/s?wd=php クローラー。 Baidu の検索バーに「php クローラー」と入力すると、この URL に自動的にジャンプできます。

次に、解析するデータの形式を理解する必要があります。この場合、検索結果は次のような HTML コードの形式で存在します。

<div class="result c-container ">
    <h3 class="t">
        <a href="http://www.example.com/" target="_blank" class="c-showurl">
            www.example.com
        </a>
        <em>PHP</em> 爬虫是什么? - PHP 入门教程 - 极客学院
    </h3>
    <div class="c-abstract">
        <span class=" newTimeFactor_before_abs">2天前 - </span>
        <em>PHP</em> 爬虫是一种方便快捷的数据采集方式 ... 目前的爬虫主要是通过<a
            href="https://www.baidu.com/s?wd=python%20爬虫&amp;rsp=1&amp;f=8&amp;ie=utf-8&amp;tn=95754739_hao_pg"
            target="_blank" class="text-underline">python 爬虫</a>实现。相比于 <a
            href="https://www.baidu.com/link?url=zdiwLoE_LR5bzae8ifgYsYXBfvatKGD0D6Yjli9c8_nsisbDmnS-r8l7g-5G2NI79x6yO8NnDdnLqhNuqOZtedHjiOZbhsDNwkFx3pW6yBt&amp;wd=&amp;eqid=f774f5d00003a46c000000065f51fc9a"
            target="_blank" class="text-underline">PHP</a>，<a
            href="https://www.baidu.com/link?url=zdiwLoE_LR5bzae8ifgYsYXBfvatKGD0D6Yjli9c8_ns
            isbDmnS-r8l7g-5G2NI79x6yO8NnDdnLqhNuqOZtedHjiOZbhsDNwkFx3pW6yBt&amp;
            wd=&amp;eqid=f774f5d00003a46c000000065f51fc9a" target="_blank"
            class="text-underline">PHP</a> 一般用作...
    </div>
</div>

ログイン後にコピー

上記の HTML コードスニペットでは、各検索結果が <div 内にネストされていることがわかります。 class ="result c-container "> タグ内に記述します。各検索結果には、HTML 形式 <h3 class="t"> に対応するタイトルがあり、リンクアドレスは <a> タグ内にネストされます。各検索結果には、HTML 形式 <div class="c-abstract"> に対応する説明が付いています。各検索結果には、<a> タグ内に class="c-showurl" を含む URL も含まれています。

取得したいデータの形式と解析する必要がある HTML データの形式が明確になったので、クローラープログラムの作成を開始できます。

コードの記述

PHP クローラーコードを 3 つのステップに分割しました:

Baidu 検索結果の HTML ページを取得する
分析 HTML ページ
解析されたデータを配列形式で返します

Baidu 検索結果の HTML ページを取得します

PHP の cURL ライブラリを使用して HTTP リクエストを送信できます。 Baidu の検索結果の HTML ページを取得します。この例では、検索ページの URL を $url 変数に保存します。次に、cURL ハンドルを作成し、URL の設定、リクエストヘッダーの設定、プロキシの設定、タイムアウトの設定、リクエストメソッドの GET への設定などの多くのオプションを設定し、最後にこのハンドルを実行して HTML ページを取得します。

<?php

$url = "https://www.baidu.com/s?wd=php%20爬虫";

// 创建curl句柄
$ch = curl_init();

// 设置curl选项
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
curl_setopt($ch, CURLOPT_ENCODING, 'gzip,deflate');
curl_setopt($ch, CURLOPT_HEADER, true);
curl_setopt(
    $ch,
    CURLOPT_HTTPHEADER,
    [
        'User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36',
        'Referer: https://www.baidu.com/',
        'Connection: keep-alive',
    ]
);
curl_setopt($ch, CURLOPT_TIMEOUT, 30);
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);
curl_setopt($ch, CURLOPT_CUSTOMREQUEST, "GET");

//执行curl句柄
$result = curl_exec($ch);

ログイン後にコピー

この例では、cURL ライブラリによって提供されるオプションの多くを使用します。たとえば、ブラウザによって送信される HTTP リクエストをシミュレートするリクエストヘッダーを設定したり、リクエストメソッドを GET に設定したり、タイムアウトを設定したりできます。

HTML ページの解析

Baidu 検索結果の HTML ページを取得した後、それを解析して必要な情報を取得する必要があります。この例では、PHP の正規表現を使用して HTML ページを解析します。

次は、HTML ページからタイトル、説明、リンクを抽出するために使用する正規表現です:

<?php

$result = curl_exec($ch);

// 匹配所有搜索结果
preg_match_all(
    '/<div.*?class="result.*?">.*?<h3.*?>.*?<a.*?href="(.*?)".*?>s*(.*?)s*</a>.*?</h3>.*?<div.*?class="c-abstract.*?">(.*?)</div>.*?</div>/',
    $result,
    $matches
);

// 提取搜索结果中的标题、描述和链接
$data = [];
for ($i=0; $i<count($matches[0]); $i++) {
    $data[] = [
        'title' => strip_tags($matches[2][$i]), // 去除标题中的 HTML 标签
        'description' => strip_tags($matches[3][$i]), // 去除描述中的 HTML 标签
        'link' => $matches[1][$i]
    ];
};

// 关闭curl句柄
curl_close($ch);

ログイン後にコピー

上記のコードでは、PHP の正規表現を使用してすべての検索結果と一致します。次に、ループを使用してすべての検索結果を調べ、必要なタイトル、説明、リンクを抽出します。 HTML から取得したタイトルと説明には HTML タグが含まれるため、strip_tags 関数を使用してそれらを削除します。

結果を返す

上記のコードでは、必要なデータを取得しました。後は結果を配列の形式で返すだけです。クローラープログラム全体を関数にカプセル化し、取得したデータを配列の形式で返します。

<?php

function spider_baidu($keyword) {
    $url = "https://www.baidu.com/s?wd=" . urlencode($keyword);

    $ch = curl_init();

    curl_setopt($ch, CURLOPT_URL, $url);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
    curl_setopt($ch, CURLOPT_ENCODING, 'gzip,deflate');
    curl_setopt($ch, CURLOPT_HEADER, true);
    curl_setopt(
        $ch,
        CURLOPT_HTTPHEADER,
        [
            'User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36',
            'Referer: https://www.baidu.com/',
            'Connection: keep-alive',
        ]
    );
    curl_setopt($ch, CURLOPT_TIMEOUT, 30);
    curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
    curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);
    curl_setopt($ch, CURLOPT_CUSTOMREQUEST, "GET");

    $result = curl_exec($ch);

    preg_match_all(
        '/<div.*?class="result.*?">.*?<h3.*?>.*?<a.*?href="(.*?)".*?>s*(.*?)s*</a>.*?</h3>.*?<div.*?class="c-abstract.*?">(.*?)</div>.*?</div>/',
        $result,
        $matches
    );

    $data = [];
    for ($i=0; $i<count($matches[0]); $i++) {
        $data[] = [
            'title' => strip_tags($matches[2][$i]),
            'description' => strip_tags($matches[3][$i]),
            'link' => $matches[1][$i]
        ];
    };

    curl_close($ch);

    return $data;
}

ログイン後にコピー

キーワードをパラメーターとして受け取り、この関数を呼び出してタイトルのキーワードを取得できます。 Baidu の検索結果の説明とリンク。

結論

この記事では、PHP を使用して、Baidu の検索結果から必要なデータを抽出する簡単なクローラープログラムを作成しました。このプログラムは、PHP の cURL ライブラリを使用して HTTP リクエストをシミュレートし、正規表現などのメソッドを使用して HTML ページを解析します。この例を通じて、クローラーがどのように動作するか、および PHP を使用してクローラーを作成する方法を深く理解できます。実際のプロジェクトでは、必要に応じてこのプログラムを変更して、必要なデータを取得できます。

以上がPHP クローラーの実践: Baidu の検索結果から必要なデータを抽出するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7752

Java チュートリアル

1643

CakePHP チュートリアル

1398

Laravel チュートリアル

1293

PHP チュートリアル

1234

Related knowledge

Ubuntu および Debian 用の PHP 8.4 インストールおよびアップグレードガイド Dec 24, 2024 pm 04:42 PM

PHP 8.4 では、いくつかの新機能、セキュリティの改善、パフォーマンスの改善が行われ、かなりの量の機能の非推奨と削除が行われています。このガイドでは、Ubuntu、Debian、またはその派生版に PHP 8.4 をインストールする方法、または PHP 8.4 にアップグレードする方法について説明します。

今まで知らなかったことを後悔している 7 つの PHP 関数 Nov 13, 2024 am 09:42 AM

あなたが経験豊富な PHP 開発者であれば、すでにそこにいて、すでにそれを行っていると感じているかもしれません。あなたは、運用を達成するために、かなりの数のアプリケーションを開発し、数百万行のコードをデバッグし、大量のスクリプトを微調整してきました。

PHP 開発用に Visual Studio Code (VS Code) をセットアップする方法 Dec 20, 2024 am 11:31 AM

Visual Studio Code (VS Code とも呼ばれる) は、すべての主要なオペレーティングシステムで利用できる無料のソースコードエディター (統合開発環境 (IDE)) です。多くのプログラミング言語の拡張機能の大規模なコレクションを備えた VS Code は、

JSON Web Tokens（JWT）とPHP APIでのユースケースを説明してください。 Apr 05, 2025 am 12:04 AM

JWTは、JSONに基づくオープン標準であり、主にアイデンティティ認証と情報交換のために、当事者間で情報を安全に送信するために使用されます。 1。JWTは、ヘッダー、ペイロード、署名の3つの部分で構成されています。 2。JWTの実用的な原則には、JWTの生成、JWTの検証、ペイロードの解析という3つのステップが含まれます。 3. PHPでの認証にJWTを使用する場合、JWTを生成および検証でき、ユーザーの役割と許可情報を高度な使用に含めることができます。 4.一般的なエラーには、署名検証障害、トークンの有効期限、およびペイロードが大きくなります。デバッグスキルには、デバッグツールの使用とロギングが含まれます。 5.パフォーマンスの最適化とベストプラクティスには、適切な署名アルゴリズムの使用、有効期間を合理的に設定することが含まれます。

母音を文字列にカウントするPHPプログラム Feb 07, 2025 pm 12:12 PM

文字列は、文字、数字、シンボルを含む一連の文字です。このチュートリアルでは、さまざまな方法を使用してPHPの特定の文字列内の母音の数を計算する方法を学びます。英語の母音は、a、e、i、o、u、そしてそれらは大文字または小文字である可能性があります。母音とは何ですか？母音は、特定の発音を表すアルファベットのある文字です。大文字と小文字など、英語には5つの母音があります。 a、e、i、o、u 例1 入力：string = "tutorialspoint" 出力：6 説明する文字列「TutorialSpoint」の母音は、u、o、i、a、o、iです。合計で6元があります

PHPでHTML/XMLを解析および処理するにはどうすればよいですか？ Feb 07, 2025 am 11:57 AM

このチュートリアルでは、PHPを使用してXMLドキュメントを効率的に処理する方法を示しています。 XML（拡張可能なマークアップ言語）は、人間の読みやすさとマシン解析の両方に合わせて設計された多用途のテキストベースのマークアップ言語です。一般的にデータストレージに使用されます

PHPでの後期静的結合を説明します（静的：:)。 Apr 03, 2025 am 12:04 AM

静的結合（静的：:) PHPで後期静的結合（LSB）を実装し、クラスを定義するのではなく、静的コンテキストで呼び出しクラスを参照できるようにします。 1）解析プロセスは実行時に実行されます。2）継承関係のコールクラスを検索します。3）パフォーマンスオーバーヘッドをもたらす可能性があります。

PHPマジックメソッド（__construct、__destruct、__call、__get、__setなど）とは何ですか？ Apr 03, 2025 am 12:03 AM

PHPの魔法の方法は何ですか？ PHPの魔法の方法には次のものが含まれます。1。\ _ \ _コンストラクト、オブジェクトの初期化に使用されます。 2。\ _ \ _リソースのクリーンアップに使用される破壊。 3。\ _ \ _呼び出し、存在しないメソッド呼び出しを処理します。 4。\ _ \ _ get、dynamic属性アクセスを実装します。 5。\ _ \ _セット、動的属性設定を実装します。これらの方法は、特定の状況で自動的に呼び出され、コードの柔軟性と効率を向上させます。

See all articles

PHP クローラーの実践: Baidu の検索結果から必要なデータを抽出する

アイデア

コードの記述

Baidu 検索結果の HTML ページを取得します

HTML ページの解析

結果を返す

結論

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック