PHPディープスキャン、その対処方法

WBOY
リリース: 2016-06-13 13:18:51
オリジナル
837 人が閲覧しました

PHP ディープ スキャン
Web ページ内のコンテンツをクロールしたい場合
file_get_contents パラメータを URL に入力して現在のコンテンツを取得します

今やりたいのはディープ クロールの方法です?

a タグに遭遇した後に URL を取得し、次に file_get_contents

を実行して、このようにトラバースし続けるためですか? ?

何か良いアイデアはありますか?

-----解決策---------
爬虫類?
一般的なトラバーサル形式は 2 つだけです。
1. グラフの深度トラバースに似た深度スキャン。再帰は最も理解しやすい方法です。

2. 幅スキャン。つまり、Web ページを階層的にスキャンします。実装が簡単で、クロールのレベルを制御できます。

あなたの言ったやり方は基本的には深い這いの戦略です。 ps: これはかなり時間がかかります。

関連ラベル:
ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート