84669 人が学習中
152542 人が学習中
20005 人が学習中
5487 人が学習中
7821 人が学習中
359900 人が学習中
3350 人が学習中
180660 人が学習中
48569 人が学習中
18603 人が学習中
40936 人が学習中
1549 人が学習中
1183 人が学習中
32909 人が学習中
是这样的,毕业设计快要开始了。
最近在选题,由于很早就对爬虫很感兴趣。
所以毕业设计就想做一个关于网络爬虫的小项目。但是觉得单一的单机爬虫可能比较小,不太符合毕业设计的要求。所以打算做一个分布式的网络爬虫。如果有时间会做对数据进行分析的模块。
语言的话暂定java,之前接触过Python但是觉得现在再学然后用来做毕设不太现实。
所以想在这问一下各位大神
分布式爬虫需要学习什么?利用什么框架来完成这个命题?实现的难度如何?推荐的书籍?
先谢谢了!
人生最曼妙的风景,竟是内心的淡定与从容!
考えられる方向性
akka (分散コンピューティング フレームワーク)
ストーム (これも分散コンピューティング フレームワーク)
nutch (クローラー + 検索エンジン、hadoop ベースで分散可能)
または RabbitMQ などのメッセージ キュー システムをベースにして、フレームワーク自体に基づいた分散システムを実装できます。
実装がどれほど難しいかを言うのは難しいです。単一マシンのクローラーに負担がなければ、この問題の難しさはクローラー自体ではなく、分散タスクの分散とデータ処理にあると考えるでしょう。 (分散クローラーを構築する理由については考えることができます)、分散フレームワークをマスターしていれば、分散の側面は実際にはフレームワーク レベルで解決されていることがわかります。クロールに集中するだけです。
まず単純なクローラーを実装して単一のマシン上で実行し、次に分散キューを実装します。 rpc に関連する配布情報が見つかります。
まずクローラーを用意し、次にクローラーをクラスターにデプロイする必要があります。次に、クローラー間で URL 情報を共有する必要があることがわかります。これらを解決すると、分散型クローラーが誕生します
ここに既存の例があります。参照してください: Dianping.com でビジネス情報をクロールする方法 (栗とコードが添付されています) https://www.douban.com/group/ 。 ..
考えられる方向性
akka (分散コンピューティング フレームワーク)
ストーム (これも分散コンピューティング フレームワーク)
nutch (クローラー + 検索エンジン、hadoop ベースで分散可能)
または RabbitMQ などのメッセージ キュー システムをベースにして、フレームワーク自体に基づいた分散システムを実装できます。
実装がどれほど難しいかを言うのは難しいです。単一マシンのクローラーに負担がなければ、この問題の難しさはクローラー自体ではなく、分散タスクの分散とデータ処理にあると考えるでしょう。 (分散クローラーを構築する理由については考えることができます)、分散フレームワークをマスターしていれば、分散の側面は実際にはフレームワーク レベルで解決されていることがわかります。クロールに集中するだけです。
まず単純なクローラーを実装して単一のマシン上で実行し、次に分散キューを実装します。 rpc に関連する配布情報が見つかります。
まずクローラーを用意し、次にクローラーをクラスターにデプロイする必要があります。次に、クローラー間で URL 情報を共有する必要があることがわかります。これらを解決すると、分散型クローラーが誕生します
ここに既存の例があります。参照してください:
Dianping.com でビジネス情報をクロールする方法 (栗とコードが添付されています)
https://www.douban.com/group/ 。 ..