ホームページ バックエンド開発 PHPチュートリアル PHP と Selenium: さまざまな Web ページからデータを収集するにはどうすればよいですか?

PHP と Selenium: さまざまな Web ページからデータを収集するにはどうすればよいですか?

Jun 16, 2023 am 10:01 AM
php データを専用にする selenium

インターネットの発展に伴い、Web クローラーは間違いなく情報を取得する重要な手段となっています。複数の異なる Web サイトに直面し、情報を収集する必要がある場合、各 Web サイトのページ構造を研究することに集中する必要があります。では、さまざまな Web サイト上のデータをクロールする一般的な方法はあるのでしょうか?答えは「はい」です。この記事では、PHP と Selenium を使用してさまざまな Web ページ上のデータをクロールする方法を紹介します。

セレンとは何ですか?

Selenium は Web オートメーション テスト コミュニティの標準の 1 つと言え、入力、クリック、ドロップダウン ボックスの選択、ファイルのアップロードなど、ブラウザーでのユーザー操作をシミュレートできます。 Selenium を使用して Web ページの自動テストを実装できますが、ここでは Selenium を使用してデータをクロールします。

なぜ Selenium を使用するのですか?

データをクロールしていると、単純なcurlまたはfile_get_contentsリクエストを通じてアクセスできるページがいくつか出てきます。しかし、Web テクノロジーの発展に伴い、多くの Web サイトでは Ajax、Vue、React などのフロントエンド フレームワークが採用され、ページ上のデータは JavaScript を通じて非同期で取得されるようになりました。この場合、ページの完全なレンダリング結果を取得するには、ブラウザの動作をシミュレートする必要があります。また、Web サイトによってはクローラーを防ぐため、認証コードなどを使用して認証を行う場合がありますが、その際には Selenium を使用して手動操作をシミュレートしてからデータを取得する必要もあります。

PHP と Selenium を使用してデータをキャプチャする基本プロセス

最初のステップは Selenium をインストールすることです

Selenium のインストールは非常に簡単です。ターミナルで次のコマンドを実行するだけです:

composer require php-webdriver/webdriver
ログイン後にコピー

インストールが完了したら、対応するブラウザのドライバーをダウンロードする必要があります。Chrome を例に挙げると、chromedriver をダウンロードして、ダウンロードしたドライバーを配置する必要がありますPATH 変数が指す場所にあります。

2 番目のステップ、Selenium の起動

Selenium の起動は非常に簡単で、ターミナルに次のコマンドを入力するだけです:

java -jar path/to/selenium-server-standalone-3.141.59.jar
ログイン後にコピー

このうち、path/to/ は Selenium のインストール パスです。 。

3 番目のステップは、Selenium を使用してデータ キャプチャを実装することです。

Selenium とブラウザ ドライバーを使用すると、PHP を直接使用して Selenium の API を呼び出し、自動化された Web サイト テストとデータ キャプチャを実装できます。例として、Douban Movies の TOP250 の映画情報をクロールする例を見てみましょう。

  1. ブラウザを開いて URL を入力し、
use FacebookWebDriverRemoteDesiredCapabilities;
use FacebookWebDriverRemoteRemoteWebDriver;

$host = 'http://localhost:4444/wd/hub'; // Selenium本地服务地址
$capabilities = DesiredCapabilities::chrome();
$webDriver = RemoteWebDriver::create($host, $capabilities);

$url = 'https://movie.douban.com/top250';
$webDriver->get($url);
ログイン後にコピー
  1. 次をクリックしてください。ページは続行します 映画情報の取得
do {
    // 获取电影列表并输出
    $list = $webDriver->findElements(WebDriverBy::cssSelector('.grid_view .item'));
    foreach ($list as $item) {
        $name = $item->findElement(WebDriverBy::cssSelector('.title'))->getText();
        $directors = $item->findElement(WebDriverBy::cssSelector('.bd p:first-child'))->getText();
        $rate = $item->findElement(WebDriverBy::cssSelector('.rating_num'))->getText();
        echo "$name $directors $rate
";
    }

    // 点击下一页
    $nextPageBtn = $webDriver->findElement(WebDriverBy::cssSelector('.paginator .next a'));
    $nextPageBtnClassName = $nextPageBtn->getAttribute('class');
    if (strpos($nextPageBtnClassName, 'disabled') === false) {
        $nextPageBtn->click();
    } else {
        break;
    }

    // 等待新页面加载完成
    $webDriver->wait()->until(WebDriverExpectedCondition::urlContains(intval($page + 1)));
} while (true);
ログイン後にコピー
  1. ブラウザを閉じる
$webDriver->quit();
ログイン後にコピー

上記のコードを使用すると、TOP250 の Douban 映画の関連情報を簡単に取得できます。

概要

この記事では、PHP と Selenium を使用してさまざまな Web サイト上のデータをクロールする方法を紹介し、具体的な実装手順を例を挙げて詳しく説明します。 Selenium を使用すると、データをより簡単に取得し、必要な情報をより迅速に取得できるため、高度なカスタマイズが必要な一部のクロール タスクに非常に役立ちます。

以上がPHP と Selenium: さまざまな Web ページからデータを収集するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Ubuntu および Debian 用の PHP 8.4 インストールおよびアップグレード ガイド Ubuntu および Debian 用の PHP 8.4 インストールおよびアップグレード ガイド Dec 24, 2024 pm 04:42 PM

PHP 8.4 では、いくつかの新機能、セキュリティの改善、パフォーマンスの改善が行われ、かなりの量の機能の非推奨と削除が行われています。 このガイドでは、Ubuntu、Debian、またはその派生版に PHP 8.4 をインストールする方法、または PHP 8.4 にアップグレードする方法について説明します。

CakePHP の日付と時刻 CakePHP の日付と時刻 Sep 10, 2024 pm 05:27 PM

Cakephp4 で日付と時刻を操作するには、利用可能な FrozenTime クラスを利用します。

CakePHP について話し合う CakePHP について話し合う Sep 10, 2024 pm 05:28 PM

CakePHP は、PHP 用のオープンソース フレームワークです。これは、アプリケーションの開発、展開、保守をより簡単にすることを目的としています。 CakePHP は、強力かつ理解しやすい MVC のようなアーキテクチャに基づいています。モデル、ビュー、コントローラー

CakePHP ファイルのアップロード CakePHP ファイルのアップロード Sep 10, 2024 pm 05:27 PM

ファイルのアップロードを行うには、フォーム ヘルパーを使用します。ここではファイルアップロードの例を示します。

CakePHP バリデータの作成 CakePHP バリデータの作成 Sep 10, 2024 pm 05:26 PM

Validator は、コントローラーに次の 2 行を追加することで作成できます。

PHP 開発用に Visual Studio Code (VS Code) をセットアップする方法 PHP 開発用に Visual Studio Code (VS Code) をセットアップする方法 Dec 20, 2024 am 11:31 AM

Visual Studio Code (VS Code とも呼ばれる) は、すべての主要なオペレーティング システムで利用できる無料のソース コード エディター (統合開発環境 (IDE)) です。 多くのプログラミング言語の拡張機能の大規模なコレクションを備えた VS Code は、

CakePHP クイックガイド CakePHP クイックガイド Sep 10, 2024 pm 05:27 PM

CakePHP はオープンソースの MVC フレームワークです。これにより、アプリケーションの開発、展開、保守がはるかに簡単になります。 CakePHP には、最も一般的なタスクの過負荷を軽減するためのライブラリが多数あります。

PHPでHTML/XMLを解析および処理するにはどうすればよいですか? PHPでHTML/XMLを解析および処理するにはどうすればよいですか? Feb 07, 2025 am 11:57 AM

このチュートリアルでは、PHPを使用してXMLドキュメントを効率的に処理する方法を示しています。 XML(拡張可能なマークアップ言語)は、人間の読みやすさとマシン解析の両方に合わせて設計された多用途のテキストベースのマークアップ言語です。一般的にデータストレージに使用されます

See all articles