PHP ディープ スキャン
Web ページ内のコンテンツをクロールしたい場合
file_get_contents パラメータを URL に入力して現在のコンテンツを取得します
今やりたいのはディープ クロールの方法です?
a タグに遭遇した後に URL を取得し、次に file_get_contents
を実行して、このようにトラバースし続けるためですか? ?
何か良いアイデアはありますか?
-----解決策---------
爬虫類?
一般的なトラバーサル形式は 2 つだけです。
1. グラフの深度トラバースに似た深度スキャン。再帰は最も理解しやすい方法です。
2. 幅スキャン。つまり、Web ページを階層的にスキャンします。実装が簡単で、クロールのレベルを制御できます。
あなたの言ったやり方は基本的には深い這いの戦略です。 ps: これはかなり時間がかかります。