JavaScript mapreduce工作原理简析_基础知识
谷歌在2003到2006年间连续发表了三篇非常有影响力的文章,分别是2003年在SOSP上发布的GFS,2004年在OSDI上发布的MapReduce,以及2006年在OSDI上发布的BigTable。GFS是文件系统相关的,其对后来的分布式文件系统设计具有指导意义;MapReduce是一种并行计算的编程模型,用于作业调度;BigTable是一个用于管理结构化数据的分布式存储系统,构建在GFS、Chubby、SSTable等Google技术之上。相当多的Google应用使用了这三种技术,比如Google Search、Google Earth和Google Analytics等等。因此这三种技术并称为谷歌技术”三宝”。今天,D瓜哥班门弄斧,对MapReduce来个”庖丁解牛”!
MapReduce简介
MapReduce是一个编程模型,也是一个处理和生成超大数据集的算法模型的相关实现。用户首先创建一
个Map函数处理一个基于key/value pair的数据集合,输出中间的基于key/value pair的数据集合;然后
再创建一个Reduce函数用来合并所有的具有相同中间key值的中间value值。
一图胜千言,下面我们用一张图来说明一下MapReduce:
编程实践
常言道:”实践出真知” 。是骡子是马,拉出来遛遛才知道。所以,如果真的想搞懂这个原理,还是亲自写代码实践一下才是硬道理。
最近和几个朋友一起学习JavaScript,所以就比较关注JavaScript。昨天上网瞎逛时,惊奇地发现,竟然有牛人使用JavaScript实现了MapReduce算法。然后转过来和大家分享,同时再加上我自己的一些狗尾续貂的介绍,希望有助于大家理解MapReduce。具体代码实现如下:
var Job = {
//待处理的数据
data : [
"We are glad to see you here. This site is dedicated to",
"poetry and to the people who make poetry possible",
"poets and their readers. FamousPoetsAndPoems.com is",
"a free poetry site. On our site you can find a large",
"collection of poems and quotes from over 631 poets",
"Read and Enjoy Poetry",
"I, too, sing America",
"I am the darker brother",
"They send me to eat in the kitchen",
"When company comes",
"But I laugh",
"And eat well",
"And grow strong",
"Tomorrow",
"Ill be at the table",
"When company comes",
"Nobodyll dare",
"Say to me",
"Eat in the kitchen",
"Then",
"Besides",
"Theyll see how beautiful I am",
"And be ashamed",
"I, too, am America"
],
//将数据中的每行字符串用空格分隔开,
//并"重组"成诸如{key: 单词, value: 1}格式的对象,返回对象数组
map : function(line) {
var splits = line.split(" ");
var temp = [];
for(var i=0; i
}
return temp;
},
//计算每个单词在"数据"(data)中出现的次数
reduce : function(allSteps) {
var result = {};
for(var i=0; i
result[step.key] = result[step.key] ? (result[step.key] + 1) : 1;
}
return result;
},
//初始化,同时是运行的入口。
init : function() {
var allSteps = [];
for(var i=0; i
allSteps = allSteps.concat(Job.map(Job.data[i]));
}
//美中不足,这里不能多线程调用Job.reduce函数??
var result = Job.reduce(allSteps)
console.log(JSON.stringify(result));
}
}; // Job
//开始执行
Job.init();
复制这些代码,直接粘贴到浏览器的控制台(Console)中,或者放到一个HTML文件中,用浏览器打开,就可以在控制台输出中,看到效果如下:
美中不足
这篇文章发布出来之后,就有网友“咆哮”:“一个连多线程都没有的js 搞什么MapReduce啊?”其实,这个问题,D瓜哥也发现了。在看到这个代码的解释后,D瓜哥就纳闷JavaScript不是单进程吗?怎么还能模拟MapReduce?在认真阅读代码,单步调试之后,更加印证了D瓜哥的看法。(关于D瓜哥的疑问已经在代码中注释出来。)
不过,再想一下,这些并不影响我们去理解MapReduce的原理。这只是个单进程,最基础的版本。先理解了这个,再去整个多线程的也许就更容易理解了。
未完待续
其实,D瓜哥现在考虑在这个例子的基础上,用Java实现一个多线程版本,那样模拟的MapReduce更逼真。等D瓜哥把一些问题思考清楚之后,就把代码发出来。敬请期待!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

Solana区块链和SOL代币Solana是一种专注于为去中心化应用程序(dApps)提供高性能、安全和可扩展性的区块链平台。SOL代币作为Solana区块链的原生资产,主要用于支付交易手续费、质押和参与治理决策。Solana的独特之处在于其快速的交易确认时间和高吞吐量,使其成为开发者和用户青睐的选择。通过SOL代币,用户可以参与Solana生态系统的各种活动,并共同推动平台的发展和进步。Solana的工作原理Solana采用一种创新的共识机制,被称为历史证明(PoH),能够有效处理数千笔交易。

SpringDataJPA基于JPA架构,通过映射、ORM和事务管理与数据库交互。其存储库提供CRUD操作,派生查询简化了数据库访问。此外,它使用延迟加载,仅在必要时检索数据,从而提高了性能。

VET币:基于区块链的物联网生态系统VeChainThor(VET)是一种基于区块链技术的平台,旨在通过确保数据的可信性和实现价值的安全转移来提升物联网(IoT)领域的供应链管理和业务流程。VET币是VeChainThor区块链的原生代币,具有以下功能:支付交易费用:VET币用于支付VeChainThor网络上的交易费用,包括数据存储、智能合约执行和身份验证。治理:VET币持有者可以参与VeChainThor的治理,包括对平台升级和提案进行投票。激励:VET币用于激励网络中的验证者,以确保网络的

ShibaInu币:以狗狗为灵感的加密货币ShibaInu币(SHIB)是一种去中心化的加密货币,灵感源自于其标志性的柴犬表情包。该加密货币于2020年8月推出,旨在成为以太坊网络上的一种替代狗狗币。工作原理SHIB币是建立在以太坊区块链上的数字货币,符合ERC-20代币标准。它运用去中心化共识机制,即权益证明(PoS),这使得持有者可以通过抵押他们的SHIB代币来验证交易,并从中获得奖励。主要特点庞大的供应量:SHIB币的初始供应量为1000万亿枚,使其成为流通量最大的加密货币之一。低价格:S

Polygon:构建以太坊生态系统的多功能区块链Polygon是一个建立在以太坊之上的多功能区块链平台,原名为MaticNetwork。其目标是解决以太坊网络中的可扩展性、高费用和复杂性问题。Polygon通过提供可扩展性解决方案,为开发者和用户提供更快速、更便宜、更简单的区块链体验。Polygon的工作原理如下:侧链网络:Polygon创建了一个由多个侧链组成的网络。这些侧链与以太坊主链并行运行,可以处理大量交易,从而提高整体网络吞吐量。Plasma框架:Polygon利用Plasma框架,这

Algorand:基于纯拜占庭共识协议的区块链平台Algorand是建立在纯拜占庭共识协议之上的区块链平台,旨在提供高效、安全且可扩展的区块链解决方案。这一平台由麻省理工学院的教授SilvioMicali于2017年创立。工作原理Algorand的核心在于其独特的纯拜占庭共识协议,即Algorand共识。这个协议允许节点在不信任的环境中实现共识,即使网络中存在恶意节点。Algorand共识通过一系列步骤来实现这一目标。密钥生成:每个节点生成一对公钥和私钥。提议阶段:一个随机选择的节点提议一个新区

Beam币:注重隐私的加密货币Beam币是一种专注于隐私保护的加密货币,旨在提供安全且匿名的交易。它采用了MimbleWimble协议,这是一种区块链技术,通过合并交易和隐藏发送者与接收者的地址来增强用户的隐私保护。Beam币的设计理念是为用户提供一种能够确保交易信息保密的数字货币选择。通过采用这种协议,用户可以更加放心地进行交易,而无需担心他们的个人隐私信息被泄露。这种隐私保护的特性使得Beam币Beam币的工作原理MimbleWimble协议通过以下方式增强隐私:交易合并:它将多个交易组合成

AR币:基于增强现实技术的数字货币AR币是一种数字货币,利用增强现实技术为用户提供与数字内容互动的体验,使他们可以在现实世界中创造身临其境的体验。工作原理AR币的工作原理基于以下关键概念:增强现实(AR):AR技术将数字信息叠加在现实世界中,使用户能够与虚拟对象进行交互。区块链:区块链是一种分布式账本技术,用于记录和验证交易。它为AR币提供安全性和透明度。智能合约:智能合约是存储在区块链上的代码,用于自动化特定操作。它们在AR币的创建和管理中发挥着至关重要的作用。AR币的工作流程如下:创建AR体
