Home > Database > Mysql Tutorial > MongoDB 数据库操作(五)—MapReduce(groupBy)

MongoDB 数据库操作(五)—MapReduce(groupBy)

WBOY
Release: 2016-06-07 15:35:32
Original
1611 people have browsed it

1. MongoDB 的MapReduce 相当于Mysql 中的group by,所以在MongoDB 上使用 Map/Reduce进行并行统计很容易。使用MapReduce 要实现两个函数 Map 函数和Reduce 函数,Map 函数调用emit(key, value),遍历collection中所有的记录,将key与value传递给Reduce 函数

1. MongoDB 的MapReduce 相当于Mysql 中的"group by",所以在MongoDB 上使用 Map/Reduce进行并行"统计"很容易。使用MapReduce 要实现两个函数 Map 函数和Reduce 函数,Map 函数调用emit(key, value),遍历collection中所有的记录,将key与value传递给Reduce 函数进行处理。Map函数和Reduce函数可以使用JavaScript 来实现,可以通过db.runCommand 或mapReduce 命令来执行一个MapReduce 的操作。


2.运行MapReduce程序(runCommand)

db.runCommand(
{
Copy after login
 mapreduce : <collection>,
 map : <mapfunction>,
 reduce : <reducefunction>
[, query : <query filter object>]
[, sort : <sorts the input objects using this key. useful for optimization like sorting by emit key fewer reduces>]
[, limit : <number of objects to return from collection>]
[, out : <see output options below>]
[, keeptemp: <true>]
[, finalize : <finalizefunction>]
[, scope : <object where fields go into javascript global scope>]
[, verbose : true]
}
);</object></finalizefunction></true></see></number></sorts></query></reducefunction></mapfunction></collection>
Copy after login
参数说明:

 mapreduce: 要操作的目标集合。
map: 映射函数 (生成键值对序列,作为 reduce 函数参数)。
reduce: 统计函数。
query: 目标记录过滤。
sort: 目标记录排序。
limit: 限制目标记录数量。
out: 统计结果存放集合 (不指定则使用临时集合,在客户端断开后自动删除)。
keeptemp: 是否保留临时集合。
finalize: 最终处理函数 (对 reduce 返回结果进行最终整理后存入结果集合)。
scope: 向 map、reduce、finalize 导入外部变量。
verbose: 显示详细的时间统计信息。
 

3.Map

测试数据:

> db.students.insert({classid:1, age:14, name:'Tom'})
> db.students.insert({classid:1, age:12, name:'Jacky'})
> db.students.insert({classid:2, age:16, name:'Lily'})
> db.students.insert({classid:2, age:9, name:'Tony'})
> db.students.insert({classid:2, age:19, name:'Harry'})
> db.students.insert({classid:2, age:13, name:'Vincent'})
> db.students.insert({classid:1, age:14, name:'Bill'})
> db.students.insert({classid:2, age:17, name:'Bruce'})
Copy after login

map函数:必须调用 emit(key, value) 返回键值对,使用 this 访问当前待处理的 Document。通过你提供的key值来进行groupby操作。下面例子就是通过classid来进行分组。另外,value 可以使用 JSON Object 传递 (支持多个属性值)。例如:emit(this.classid, {count:1})

m = function() { emit(this.classid, 1) }
Copy after login

4.Reduce

Reduce 函数接收的参数类似 Group 效果,将 Map 返回的键值序列组合成 { key, [value1,value2, value3, value...] } 传递给 reduce。Reduce 函数对这些 values 进行 "统计" 操作,返回结果可以使用 JSON Object

r = function(key, values) {
... var x = 0;
... values.forEach(function(v) { x += v });
... return x;
... }
Copy after login


5.运行
res = db.runCommand({
... mapreduce:"students",
... map:m,
... reduce:r,
... out:"students_res"
... });
Copy after login
{
"result" : "students_res",
"timeMillis" : 1587,
"counts" : {
"input" : 8,
"emit" : 8,
"output" : 2
},
"ok" : 1
}
> db.students_res.find()
{ "_id" : 1, "value" : 3 }
{ "_id" : 2, "value" : 5 }
Copy after login

6.进一步处理结果

利用 finalize() 我们可以对 reduce() 的结果做进一步处理。函数的输入是分类的key和统计之后的结果值。

f = function(key, value) { return {classid:key, count:value}; }
Copy after login
> res = db.runCommand({
... mapreduce:"students",
... map:m,
... reduce:r,
... out:"students_res",
... finalize:f
... });
{
"result" : "students_res",
"timeMillis" : 804,
"counts" : {
"input" : 8,
"emit" : 8,
"output" : 2
},
"ok" : 1
}
> db.students_res.find()
{ "_id" : 1, "value" : { "classid" : 1, "count" : 3 } }
{ "_id" : 2, "value" : { "classid" : 2, "count" : 5 } }
Copy after login

7.过滤,排序选项等,具体的过滤选项在上面已经介绍过了。

例如根据年龄过滤:

> res = db.runCommand({
... mapreduce:"students",
... map:m,
... reduce:r,
... out:"students_res",
... finalize:f,
... query:{age:{$lt:10}}
... });
Copy after login




Related labels:
source:php.cn
Statement of this Website
The content of this article is voluntarily contributed by netizens, and the copyright belongs to the original author. This site does not assume corresponding legal responsibility. If you find any content suspected of plagiarism or infringement, please contact admin@php.cn
Popular Tutorials
More>
Latest Downloads
More>
Web Effects
Website Source Code
Website Materials
Front End Template