PHP によるクロール: 総合ガイド
複数のリンクを含む Web ページからデータを抽出するために、PHP ではさまざまな可能性が提供されています。 1 つのアプローチには正規表現の利用が含まれますが、HTML 解析に正規表現のみに依存しないようにすることが重要です。
DOM ベースのクローラーの実装
Tatu の DOM ベースのクローラーは、信頼できる代替品。改善されたバージョンは次のとおりです。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 |
|
この改善されたバージョンでは、https、ユーザー、パス、ポートなどのさまざまな URL シナリオが考慮されています。
機能強化
George は、URL パスを上書きするのではなく相対 URL を末尾に追加するオリジナル バージョンのバグを指摘しました。その結果、この問題は解決され、相対 URL が期待どおりに動作するようになりました。
出力の保存
クローラーの修正バージョンは出力を STDOUT にエコーするため、次のことが可能になります。
これらの機能強化を組み込むことで、この DOM ベースのクローラーは、PHP の複数のリンクを持つ Web ページからデータを抽出するための堅牢なソリューションを提供します。
以上がDOM 操作を使用して、複数のリンクを持つ Web ページからデータを抽出する堅牢な PHP クローラーを構築するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。