phpウェブクローラー

WBOY
リリース: 2016-06-23 14:16:52
オリジナル
1104 人が閲覧しました

PHP Web クローラー データベース業界データ

同様のプログラムを開発した専門家はいますか?いくつかアドバイスをいただけますか?機能要件は、Web サイトから関連データを自動的に取得し、データベースに保存することです。

ディスカッションへの返信 (解決策)

curl は対象の Web サイトをクロールし、正規表現または DOM を通じて対応するデータを取得し、データベースまたはファイルに保存します。
難しいことは何もありません。考慮する必要があるのは次のとおりです:
クロール戦略 (特定のドメイン名のみを、深さ優先または幅優先でクロールします)。

クロールの効率(マルチスレッドでクロールを開始できるか、各クローラーのタスクをどのように割り当てるか)

など。 。 。 。 。 。 。 。

ありがとうございます。参考資料を教えてください。私はまだ改善する必要があります。

ありがとうございます。参考資料を教えてください。私はまだ改善する必要があります。
オープンソースのクローラーは、phpdig など多数あります。言語制限がなければ Java 版の Nutch (Hadoop の前身) など多数あります。 。単純なデータ抽出であれば、非常に単純なクライアント クラス、snoopy があります

オープンソースのものがたくさんあります !!!

参考に php のソース コードを見つけたいです


ありがとう、お勧めできますかいくつかの参考資料、私は初心者です、まだ改善の余地があります、ありがとうございました。
オープンソースのクローラーは、phpdig など多数あります。言語制限がなければ Java 版の Nutch (Hadoop の前身) など多数あります。 。単純なデータ抽出であれば、非常に単純なクライアント クラス、snoopy があります
ありがとう。必要なのは、Web サイトから必要なデータを自動的に取得し、データベースに保存することです。



ありがとうございます。参考資料を教えてください。私はまだ改善する必要があります。
オープンソースのクローラーは、phpdig など多数あります。言語制限がなければ Java 版の Nutch (Hadoop の前身) など多数あります。 。単純なデータ抽出であれば、非常に単純なクライアント クラス、snoopy があります
ありがとう。必要なのは、Web サイトから必要なデータを自動的に取得し、データベースに保存することです。
ウェブサイトのデータの一部のみをキャプチャする場合は、効率の問題をあまり考慮する必要はありません。直接、curl を使用して対象の Web ページを取得し (許可されている場合は、最も単純な file_get_contents も機能します)、その後、正規表現または DOM を使用してデータを取得します

それを自分で書くのは少し難しいです。 ?推奨事項にご協力ください。ありがとう。

たとえば、「BMW」という名前の車の価格をインターネット (固定 URL はありません) から自動的にクロールし、データベースに保存して読み取れるようにしたいと考えています。簡単なコード例を書いていただけますか?ありがとう。

関連ラベル:
ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート