mongodb - spark集群中每个节点都有一个独立数据库，可以实现分布式统计计算吗？

Question

我将spark搭建在两台机器上，其中一台即是master又是slave，另一台是slave，两台机器上均装有独立的mongodb数据库。我的主程序让它们统计自身数据库的内容，然后将结果汇总到一台服务器上的数据库里。目前代码是...

PHP中文网 · Answer

自问自答。原因可能是这样：

val mongoRDD = sc.newAPIHadoopRDD(config, classOf[com.mongodb.hadoop.MongoInputFormat], classOf[Object], classOf[BSONObject])

这行代码表示这是由driver读取数据库，然后将符合条件的数据载入RDD，由于之前设置了是将127.0.0.1作为输入，也就是从driver的mongodb上读取数据。由于driver就在master上，所以读取的数据也自然就是master上的数据了。