PHP Web クローラー データベース業界データ
同様のプログラムを開発した専門家はいますか?いくつかアドバイスをいただけますか?機能要件は、Web サイトから関連データを自動的に取得し、データベースに保存することです。curl は対象の Web サイトをクロールし、正規表現または DOM を通じて対応するデータを取得し、データベースまたはファイルに保存します。
難しいことは何もありません。考慮する必要があるのは次のとおりです:
クロール戦略 (特定のドメイン名のみを、深さ優先または幅優先でクロールします)。
クロールの効率(マルチスレッドでクロールを開始できるか、各クローラーのタスクをどのように割り当てるか)
など。 。 。 。 。 。 。 。
ありがとうございます。参考資料を教えてください。私はまだ改善する必要があります。
ありがとうございます。参考資料を教えてください。私はまだ改善する必要があります。
オープンソースのクローラーは、phpdig など多数あります。言語制限がなければ Java 版の Nutch (Hadoop の前身) など多数あります。 。単純なデータ抽出であれば、非常に単純なクライアント クラス、snoopy があります
オープンソースのものがたくさんあります !!!
参考に php のソース コードを見つけたいです
ありがとう、お勧めできますかいくつかの参考資料、私は初心者です、まだ改善の余地があります、ありがとうございました。
オープンソースのクローラーは、phpdig など多数あります。言語制限がなければ Java 版の Nutch (Hadoop の前身) など多数あります。 。単純なデータ抽出であれば、非常に単純なクライアント クラス、snoopy があります
ありがとう。必要なのは、Web サイトから必要なデータを自動的に取得し、データベースに保存することです。
ありがとうございます。参考資料を教えてください。私はまだ改善する必要があります。
オープンソースのクローラーは、phpdig など多数あります。言語制限がなければ Java 版の Nutch (Hadoop の前身) など多数あります。 。単純なデータ抽出であれば、非常に単純なクライアント クラス、snoopy があります
ありがとう。必要なのは、Web サイトから必要なデータを自動的に取得し、データベースに保存することです。
ウェブサイトのデータの一部のみをキャプチャする場合は、効率の問題をあまり考慮する必要はありません。直接、curl を使用して対象の Web ページを取得し (許可されている場合は、最も単純な file_get_contents も機能します)、その後、正規表現または DOM を使用してデータを取得します
それを自分で書くのは少し難しいです。 ?推奨事項にご協力ください。ありがとう。
たとえば、「BMW」という名前の車の価格をインターネット (固定 URL はありません) から自動的にクロールし、データベースに保存して読み取れるようにしたいと考えています。簡単なコード例を書いていただけますか?ありがとう。