ホームページ バックエンド開発 PHPチュートリアル PHP を使用してページ内の URL の定期的なクロールを実装する方法

PHP を使用してページ内の URL の定期的なクロールを実装する方法

Jun 01, 2018 pm 03:48 PM
php クロール 通常

もちろん、PHP 正規表現を使用してページ内のすべてのリンクを取得するのが最も便利な方法です。正規表現を記述するには、まずパターンを要約する必要があります。では、ページ上のリンクにはいくつの形式があるでしょうか。以下を見てみましょう。

はじめに

リンクはハイパーリンクであり、ある要素 (テキスト、画像、ビデオなど) から別の要素 (テキスト、画像、ビデオなど) へのリンクです。通常、Web ページには 3 種類のリンクがあります。1 つはページへの完全なパスである絶対 URL ハイパーリンクで、もう 1 つは同じ Web サイト上の他のページにリンクする相対 URL ハイパーリンクです。ページ内のハイパーリンク。通常、同じページ内の他の場所にリンクします。

リンクの種類を理解すると、取得する主なリンクが絶対 URL ハイパーリンクと相対 URL ハイパーリンクであることがわかります。正しい正規表現を作成するには、探しているオブジェクトのパターンを理解する必要があります。

インターネット上の一意のリソースを識別する、URL (Uniform Resource Locator) とも呼ばれる絶対リンクから始めましょう。 URL の構造には、プロトコル、サーバー名、パス、ファイル名の 3 つの部分が含まれています。

プロトコルは、開くファイルの処理方法をブラウザに指示する識別子です。最も一般的なものは http プロトコルです。この記事では HTTP プロトコルのみを考慮します。他の https、ftp、mailto、telnet プロトコルなどについても、必要に応じて追加できます。

サーバー名は、このサーバーにアクセスする方法をブラウザーに伝える方法であり、通常はドメイン名または IP アドレス、場合によってはポート番号 (デフォルトは 80) です。 FTP プロトコルにはユーザー名とパスワードも含めることができますが、この記事では考慮しません。

パスとファイル名は通常 / で区切られ、ファイルへのパスとファイル自体の名前を示します。特定のファイル名がない場合は、このフォルダー内のデフォルトのファイルがアクセスされます (サーバー側で設定可能)。

クロールされる絶対リンクの典型的な形式は、

<span style="color: #000000">http://www.xxx.com/xxx/yyy のように要約できることがわかりました。 /zzz .html<code><span style="color: #000000">http://www.xxx.com/xxx/yyy/zzz.html</span>

每个部分可以使用的字符范围有明确的规范,具体可以参考RFC1738。那么正则表达式就可以写出来了。

/(http|https):\/\/([\w\d\-_]+[\.\w\d\-_]+)[:\d+]?([\/]?[\w\/\.]+)/i
ログイン後にコピー

解释如下:

(http|https)第一个括号内匹配的是协议部分。

([wd-_]+[.wd-_]+)第二个括号内匹配的是域名部分。

([/]?[w/.]+)第三个括号内匹配的是相对路径。

写到这个时候,基本上大部分的网址都能匹配到了,但是对于URL中带有参数的还不能抓取,这样有可能造成再次访问的时候页面报错。关于参数RFC1738规范中要求是用?来分割,后面带上参数,但是现代的RIA应用有可能使用其他奇怪的形式进行分割。

稍微修改一下,这样就可以将查询参数部分搜索出来。这里仍然没有涵盖全部的情况,例如URL中有中文、有空格及其他特殊字符的情况,但是基本上能够满足我的需求了,就没有继续深化。

/(http|ftp|https):\/\/([\w\d\-_]+[\.\w\d\-_]+)[:\d+]?([\/]?[\w\/\.\?=&;%@#\+,]+)/i
ログイン後にコピー

使用括号的好处是,在处理结果时,可以很容易的获取到协议、域名、相对路径这些内容,方便后续的处理。

例如使用 preg_match_all() 各部で使用できる文字の範囲については明確な仕様が定められていますので、詳しくはRFC1738を参照してください。その後、正規表現を書くことができます。

rrreee

説明は次のとおりです:

(http|https) 最初の括弧はプロトコル部分と一致します。 ([wd-_]+[.wd-_]+)
2 番目の括弧はドメイン名の部分と一致します。

([/]?[w/.]+) 3 番目の括弧は相対パスと一致します。

現時点では、基本的にほとんどの URL は一致しますが、パラメーターを含む URL はクロールできないため、再アクセス時にページがエラーを報告する可能性があります。 RFC1738仕様ではどのようなパラメータが必要ですか?ただし、最新の RIA アプリケーションでは、セグメンテーションに他の奇妙な形式を使用する場合があります。

クエリパラメータ部分を検索できるように少し修正します。これは、URL に漢字、スペース、その他の特殊文字が含まれている状況など、すべての状況をカバーしているわけではありませんが、基本的に私のニーズを満たしているため、これ以上は説明しません。

rrreee

🎜 括弧を使用する利点は、結果を処理するときに、プロトコル、ドメイン名、および相対パスを簡単に取得して、後続の処理を容易にすることができることです。 🎜🎜たとえば、 preg_match_all() を使用して照合する場合、結果配列 🎜index 0 はすべての結果、1 はプロトコル、2 はドメイン名、3 は相対パス 🎜 です。 🎜🎜要約: 上記がこの記事の全内容です。皆様の学習に役立つことを願っています。 🎜🎜関連する推奨事項: 🎜🎜🎜 PHP で複数フィールドのあいまい一致クエリを実装する方法 🎜🎜🎜🎜🎜🎜php🎜mailer バインディング メールボックスを実装する方法 🎜🎜🎜🎜🎜 最初の文字を取得するために PHP でカスタム関数を実装する方法漢字の🎜🎜 🎜🎜🎜🎜🎜🎜🎜

以上がPHP を使用してページ内の URL の定期的なクロールを実装する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Ubuntu および Debian 用の PHP 8.4 インストールおよびアップグレード ガイド Ubuntu および Debian 用の PHP 8.4 インストールおよびアップグレード ガイド Dec 24, 2024 pm 04:42 PM

PHP 8.4 では、いくつかの新機能、セキュリティの改善、パフォーマンスの改善が行われ、かなりの量の機能の非推奨と削除が行われています。 このガイドでは、Ubuntu、Debian、またはその派生版に PHP 8.4 をインストールする方法、または PHP 8.4 にアップグレードする方法について説明します。

CakePHP の日付と時刻 CakePHP の日付と時刻 Sep 10, 2024 pm 05:27 PM

Cakephp4 で日付と時刻を操作するには、利用可能な FrozenTime クラスを利用します。

CakePHP について話し合う CakePHP について話し合う Sep 10, 2024 pm 05:28 PM

CakePHP は、PHP 用のオープンソース フレームワークです。これは、アプリケーションの開発、展開、保守をより簡単にすることを目的としています。 CakePHP は、強力かつ理解しやすい MVC のようなアーキテクチャに基づいています。モデル、ビュー、コントローラー

CakePHP ファイルのアップロード CakePHP ファイルのアップロード Sep 10, 2024 pm 05:27 PM

ファイルのアップロードを行うには、フォーム ヘルパーを使用します。ここではファイルアップロードの例を示します。

PHP 開発用に Visual Studio Code (VS Code) をセットアップする方法 PHP 開発用に Visual Studio Code (VS Code) をセットアップする方法 Dec 20, 2024 am 11:31 AM

Visual Studio Code (VS Code とも呼ばれる) は、すべての主要なオペレーティング システムで利用できる無料のソース コード エディター (統合開発環境 (IDE)) です。 多くのプログラミング言語の拡張機能の大規模なコレクションを備えた VS Code は、

CakePHP クイックガイド CakePHP クイックガイド Sep 10, 2024 pm 05:27 PM

CakePHP はオープンソースの MVC フレームワークです。これにより、アプリケーションの開発、展開、保守がはるかに簡単になります。 CakePHP には、最も一般的なタスクの過負荷を軽減するためのライブラリが多数あります。

PHPでHTML/XMLを解析および処理するにはどうすればよいですか? PHPでHTML/XMLを解析および処理するにはどうすればよいですか? Feb 07, 2025 am 11:57 AM

このチュートリアルでは、PHPを使用してXMLドキュメントを効率的に処理する方法を示しています。 XML(拡張可能なマークアップ言語)は、人間の読みやすさとマシン解析の両方に合わせて設計された多用途のテキストベースのマークアップ言語です。一般的にデータストレージに使用されます

JSON Web Tokens(JWT)とPHP APIでのユースケースを説明してください。 JSON Web Tokens(JWT)とPHP APIでのユースケースを説明してください。 Apr 05, 2025 am 12:04 AM

JWTは、JSONに基づくオープン標準であり、主にアイデンティティ認証と情報交換のために、当事者間で情報を安全に送信するために使用されます。 1。JWTは、ヘッダー、ペイロード、署名の3つの部分で構成されています。 2。JWTの実用的な原則には、JWTの生成、JWTの検証、ペイロードの解析という3つのステップが含まれます。 3. PHPでの認証にJWTを使用する場合、JWTを生成および検証でき、ユーザーの役割と許可情報を高度な使用に含めることができます。 4.一般的なエラーには、署名検証障害、トークンの有効期限、およびペイロードが大きくなります。デバッグスキルには、デバッグツールの使用とロギングが含まれます。 5.パフォーマンスの最適化とベストプラクティスには、適切な署名アルゴリズムの使用、有効期間を合理的に設定することが含まれます。

See all articles