PHP クローラーの実践: Web テーブル データをクロールする方法
インターネットとビッグデータ時代の到来により、より多くのデータが収集され、活用されるようになりました。 Web ページからデータを取得する多くの方法の中で、クローラー テクノロジーは最も強力で効率的な方法であると言えます。
実際のアプリケーション シナリオでは、多くの場合、Web ページから特定のデータ、特に Web ページ内のテーブル データを取得する必要があります。したがって、この記事では、PHP クローラー テクノロジを使用して、Web ページ内の表形式のデータを取得および解析する方法を紹介します。
- PHP クローラー ライブラリのインストールと構成
クローラー コードの作成を開始する前に、PHP クローラー ライブラリをインストールして構成する必要があります。ここでは、PHP Simple HTML DOM Parser ライブラリを使用することを選択します。これは、HTML ドキュメント内のタグと属性を簡単に解析でき、一般的に使用される DOM 操作メソッドをいくつか提供する軽量の HTML パーサーです。このライブラリは、composer ツールを使用して簡単にインストールおよび構成できます。
- ターゲット Web ページの分析
Web ページ データをキャプチャするコードを記述する前に、まずターゲット Web ページの構造とデータ形式を分析する必要があります。必要なデータを正確に見つけて取得できます。ここでは、ブログ Web サイトの記事リスト ページを例に挙げます。以下に示すように、複数行のデータといくつかのテーブル要素が含まれています:
<table> <thead> <tr> <th>编号</th> <th>标题</th> <th>作者</th> <th>发布时间</th> </tr> </thead> <tbody> <tr> <td>1</td> <td><a href="/articles/1">PHP爬虫实战</a></td> <td>张三</td> <td>2022-06-01 08:00:00</td> </tr> <tr> <td>2</td> <td><a href="/articles/2">Python数据可视化</a></td> <td>李四</td> <td>2022-06-02 09:00:00</td> </tr> <!-- more rows --> </tbody> </table>
この Web ページのテーブルは < で構成されています;table>
、<thead>
、<tbody>
、<tr>
などのタグで構成され、その中に <thead>
テーブルの列ヘッダーの定義に使用され、<tbody>
はテーブルの行データの定義に使用され、<td>
は<a>
タグはセルデータの定義に使用され、記事タイトルへのリンクを表します。
- クローラ コードの記述
ターゲット Web ページの分析結果を使用して、テーブル データを取得するクローラ コードを記述できます。
まず、ターゲット Web ページをロードし、file_get_html()
メソッドを使用してそれを DOM オブジェクトに変換する必要があります。次に、find()
メソッドを使用して、データが配置されている要素を選択できます。たとえば、table > tbody > tr
は、 の子を選択することを意味します。 <table>
要素 <tbody>
の下にあるすべての <tr>
タグ、つまりテーブル内のデータのすべての行。コードは次のとおりです。
$url = 'http://example.com/articles'; $html = file_get_html($url); $rows = array(); foreach ($html->find('table > tbody > tr') as $row) { // 解析表格数据 }
次に、データの各行を走査し、セル データを解析し、後続の処理のために配列に保存する必要があります。具体的には、find('td')
メソッドを使用して、各行要素の子要素 <td>
を選択し、そのテキスト コンテンツまたはリンク アドレスを取得できます。コードは次のとおりです。
$url = 'http://example.com/articles'; $html = file_get_html($url); $rows = array(); foreach ($html->find('table > tbody > tr') as $row) { $data = array(); // 获取单元格文本内容或链接地址 $columns = $row->find('td'); $data['id'] = $columns[0]->plaintext; $data['title'] = $columns[1]->find('a', 0)->plaintext; $data['link'] = $columns[1]->find('a', 0)->href; $data['author'] = $columns[2]->plaintext; $data['date'] = $columns[3]->plaintext; $rows[] = $data; }
上記のコードでは、$data
配列は、id
、title を含む現在の行のデータを保存します。
、author
、date
はそれぞれテーブルの列に対応し、link
は記事タイトルのリンク アドレスです。 $rows[] = $data
ステートメントを使用して、$data
配列を $rows
配列に追加します。
最後に、データをデータベースに保存したり、Excel ファイルにエクスポートしたりするなど、必要に応じてデータをさらに処理して保存できます。
- 概要
この記事では、PHP Simple HTML DOM Parser ライブラリを使用して Web テーブル データをクロールする方法を紹介します。対象となるWebページの構造やデータ形式を解析し、対応するDOM操作方法を利用することで、必要なデータを迅速に見つけて取得することができ、さまざまなデータ分析や活用シーンを実現します。もちろん、クローラー技術も Web サイトの利用規制やポリシーに準拠するよう注意する必要があり、過度に使用したり、他者の権利を侵害したりすることはできません。
以上がPHP クローラーの実践: Web テーブル データをクロールする方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









PHP 8.4 では、いくつかの新機能、セキュリティの改善、パフォーマンスの改善が行われ、かなりの量の機能の非推奨と削除が行われています。 このガイドでは、Ubuntu、Debian、またはその派生版に PHP 8.4 をインストールする方法、または PHP 8.4 にアップグレードする方法について説明します。

CakePHP は、PHP 用のオープンソース フレームワークです。これは、アプリケーションの開発、展開、保守をより簡単にすることを目的としています。 CakePHP は、強力かつ理解しやすい MVC のようなアーキテクチャに基づいています。モデル、ビュー、コントローラー

ファイルのアップロードを行うには、フォーム ヘルパーを使用します。ここではファイルアップロードの例を示します。

Visual Studio Code (VS Code とも呼ばれる) は、すべての主要なオペレーティング システムで利用できる無料のソース コード エディター (統合開発環境 (IDE)) です。 多くのプログラミング言語の拡張機能の大規模なコレクションを備えた VS Code は、

CakePHP はオープンソースの MVC フレームワークです。これにより、アプリケーションの開発、展開、保守がはるかに簡単になります。 CakePHP には、最も一般的なタスクの過負荷を軽減するためのライブラリが多数あります。

このチュートリアルでは、PHPを使用してXMLドキュメントを効率的に処理する方法を示しています。 XML(拡張可能なマークアップ言語)は、人間の読みやすさとマシン解析の両方に合わせて設計された多用途のテキストベースのマークアップ言語です。一般的にデータストレージに使用されます
