java - 如何完成一个分布式爬虫
黄舟
黄舟 2017-04-17 15:46:48
0
4
527

是这样的,毕业设计快要开始了。

最近在选题,由于很早就对爬虫很感兴趣。

所以毕业设计就想做一个关于网络爬虫的小项目。但是觉得单一的单机爬虫可能比较小,不太符合毕业设计的要求。所以打算做一个分布式的网络爬虫。如果有时间会做对数据进行分析的模块。

语言的话暂定java,之前接触过Python但是觉得现在再学然后用来做毕设不太现实。

所以想在这问一下各位大神

分布式爬虫需要学习什么?
利用什么框架来完成这个命题?
实现的难度如何?
推荐的书籍?

先谢谢了!

黄舟
黄舟

人生最曼妙的风景,竟是内心的淡定与从容!

全員に返信(4)
大家讲道理

考えられる方向性

  1. akka (分散コンピューティング フレームワーク)

  2. ストーム (これも分散コンピューティング フレームワーク)

  3. nutch (クローラー + 検索エンジン、hadoop ベースで分散可能)

  4. または RabbitMQ などのメッセージ キュー システムをベースにして、フレームワーク自体に基づいた分散システムを実装できます。

実装がどれほど難しいかを言うのは難しいです。単一マシンのクローラーに負担がなければ、この問題の難しさはクローラー自体ではなく、分散タスクの分散とデータ処理にあると考えるでしょう。 (分散クローラーを構築する理由については考えることができます)、分散フレームワークをマスターしていれば、分散の側面は実際にはフレームワーク レベルで解決されていることがわかります。クロールに集中するだけです。

いいねを押す +0
巴扎黑

まず単純なクローラーを実装して単一のマシン上で実行し、次に分散キューを実装します。 rpc に関連する配布情報が見つかります。

いいねを押す +0
黄舟

まずクローラーを用意し、次にクローラーをクラスターにデプロイする必要があります。次に、クローラー間で URL 情報を共有する必要があることがわかります。これらを解決すると、分散型クローラーが誕生します

いいねを押す +0
阿神

ここに既存の例があります。参照してください:
Dianping.com でビジネス情報をクロールする方法 (栗とコードが添付されています)
https://www.douban.com/group/ 。 ..

いいねを押す +0
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート
私たちについて 免責事項 Sitemap
PHP中国語ウェブサイト:福祉オンライン PHP トレーニング,PHP 学習者の迅速な成長を支援します!