phpウェブクローラー-PHPチュートリアル-php.cn

phpウェブクローラー

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

リリース： 2016-06-23 14:16:52

オリジナル

1141 人が閲覧しました

PHP Web クローラーデータベース業界データ

同様のプログラムを開発した専門家はいますか?いくつかアドバイスをいただけますか？機能要件は、Web サイトから関連データを自動的に取得し、データベースに保存することです。

ディスカッションへの返信 (解決策)

curl は対象の Web サイトをクロールし、正規表現または DOM を通じて対応するデータを取得し、データベースまたはファイルに保存します。
難しいことは何もありません。考慮する必要があるのは次のとおりです:
クロール戦略 (特定のドメイン名のみを、深さ優先または幅優先でクロールします)。

クロールの効率（マルチスレッドでクロールを開始できるか、各クローラーのタスクをどのように割り当てるか）

など。。。。。。。。

ありがとうございます。参考資料を教えてください。私はまだ改善する必要があります。

オープンソースのものがたくさんあります !!!

参考に php のソースコードを見つけたいです

ありがとう、お勧めできますかいくつかの参考資料、私は初心者です、まだ改善の余地があります、ありがとうございました。
オープンソースのクローラーは、phpdig など多数あります。言語制限がなければ Java 版の Nutch (Hadoop の前身) など多数あります。。単純なデータ抽出であれば、非常に単純なクライアントクラス、snoopy があります
ありがとう。必要なのは、Web サイトから必要なデータを自動的に取得し、データベースに保存することです。

ありがとうございます。参考資料を教えてください。私はまだ改善する必要があります。
オープンソースのクローラーは、phpdig など多数あります。言語制限がなければ Java 版の Nutch (Hadoop の前身) など多数あります。。単純なデータ抽出であれば、非常に単純なクライアントクラス、snoopy があります
ありがとう。必要なのは、Web サイトから必要なデータを自動的に取得し、データベースに保存することです。
ウェブサイトのデータの一部のみをキャプチャする場合は、効率の問題をあまり考慮する必要はありません。直接、curl を使用して対象の Web ページを取得し (許可されている場合は、最も単純な file_get_contents も機能します)、その後、正規表現または DOM を使用してデータを取得します

それを自分で書くのは少し難しいです。 ?推奨事項にご協力ください。ありがとう。

たとえば、「BMW」という名前の車の価格をインターネット (固定 URL はありません) から自動的にクロールし、データベースに保存して読み取れるようにしたいと考えています。簡単なコード例を書いていただけますか?ありがとう。