Hadoop Rumen介绍
作者: Dong | 新浪微博: 西成懂 | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明 网址:http://dongxicheng.org/mapreduce/hadoop-rumen-introduction/ 什么是Hadoop Rumen? Hadoop Rumen是为Hadoop MapReduce设计的日志解析和分析工具
作者:Dong | 新浪微博:西成懂 | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明
网址:http://dongxicheng.org/mapreduce/hadoop-rumen-introduction/
什么是Hadoop Rumen?
Hadoop Rumen是为Hadoop MapReduce设计的日志解析和分析工具,它能够将JobHistory 日志解析成有意义的数据并格式化存储。Rumen可以单独使用,但通常作为其他组件,比如GridMix (v3) 和 Mumak的基础库。
Hadoop Rumen设计动机
对于任何一个工作在Hadoop之上的外部工具,分析JobHistory日志都是必须的工作之一。基于这点考虑,Hadoop应内嵌一个JobHistory日志分析工具。
统计分析MapReduce作业的各种属性,比如任务运行时间、任务失败率等,通常是基准测试或者模拟器必备的功能,Hadoop Rumen可以为任务生成Cumulative Distribution Functions (CDF),这可以用于推断不完整的、失败的或者丢失的任务。
Hadoop Rumen基本构成
Hadoop Rumen已经内置在Apache Hadoop 1.0之上(包括0.21.x,0.22.x,CDH3)各个版本中,位于org.apache.hadoop.tools.rumen包中,通常被Hadoop打包成独立的jar包hadoop-tools-[VERSION].jar。Hadoop Rumen由两部分组成:
(1) Trace Builder
将JobHistory日志解析成易读的格式,当前仅支持json格式。Trace Builder的输出被称为job trace(作业运行踪迹),我们通过job trace很容易模拟(还原)作业的整个运行过程。
(2) ?Folder
将job trace按时间进行压缩或者扩张。这个还是为了方便其他组件,比如GridMix (v3) 和 Mumak,使用。Folder可以将作业运行过程进行等比例缩放,以便在更短的时间内模拟作业运行过程。
试用Hadoop Rumen
你可以通过两种方式运行Rumen,一种是使用集成化(综合所有功能)的HadoopLogsAnalyzer类,在很多Hadoop版本中,这个类已经过期,不推荐使用,另一种是使用TraceBuilder和Folder类。它们的运行方式基本类似,下面以HadoopLogsAnalyzer类为例进行说明:
bin/hadoop org.apache.hadoop.tools.rumen.HadoopLogsAnalyzer -v1 -write-job-trace file:///tmp/job-trace.json -write-topology file:///tmp/topology.json file:///software/hadoop/logs/history/done/
其中,“-v1”表示采用version 1的JobHsitory格式,如果你的Hadoop版本是0.20.x系列,则需要加这个参数,“-write-job-trace”是输出的job trace存放位置,“-write-topology”是拓扑结构存放位置,Rumen能够通过分析JobHistory中所有文件得到Hadoop集群的拓扑结构。最后一项紧跟你的JobHistory 中done目录存放位置,一般在${HDOOP_LOG}/history/done中,如果在本地磁盘,则需在目录前加前缀file://,如果在HDFS上需在目录前加前缀“hdfs://”。
下面是截取的job-trace.json和topology.json文件内容:
【job-trace.json】
“priority” : “NORMAL”, “jobID” : “job_201301061549_0003″, “mapTasks” : [ { "attempts" : [ { "location" : null, "hostName" : "HADOOP001", "startTime" : 1357460454343, "finishTime" : 1357460665299, "result" : "KILLED", "shuffleFinished" : -1, "sortFinished" : -1, "attemptID" : "attempt_201301061549_0003_m_000000_0", "hdfsBytesRead" : -1, "hdfsBytesWritten" : -1, "fileBytesRead" : -1, "fileBytesWritten" : -1, "mapInputRecords" : -1, "mapOutputBytes" : -1, "mapOutputRecords" : -1, "combineInputRecords" : -1, "reduceInputGroups" : -1, "reduceInputRecords" : -1, "reduceShuffleBytes" : -1, "reduceOutputRecords" : -1, "spilledRecords" : -1, "mapInputBytes" : -1 } ], “preferredLocations” : [ ], “startTime” : 1357460454686, “finishTime” : -1, “inputBytes” : -1, “inputRecords” : -1, “outputBytes” : -1, “outputRecords” : -1, “taskID” : “task_201301061549_0003_m_000000″, “numberMaps” : -1, “numberReduces” : -1, “taskStatus” : null, “taskType” : “MAP” }, { ….
【topology.json】
{ “name” : “<root>”, “children” : [ { "name" : "default-rack", "children" : [ { "name" : " HADOOP001", "children" : null }, { "name" : " HADOOP002", "children" : null }, { "name" : HADOOP003", "children" : null }, { "name" : " HADOOP004", "children" : null }, { "name" : " HADOOP005", "children" : null }, { "name" : " HADOOP006", "children" : null } ] } ] }</root>
原创文章,转载请注明: 转载自董的博客
本文链接地址: http://dongxicheng.org/mapreduce/hadoop-rumen-introduction/
作者:Dong,作者介绍:http://dongxicheng.org/about/
Copyright © 2012
This feed is for personal, non-commercial use only.
The use of this feed on other websites breaches copyright. If this content is not in your news reader, it makes the page you are viewing an infringement of the copyright. (Digital Fingerprint:
)

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

1、首先打开手机网络浏览器,搜索微博网页版,进入后点击左上角头像按钮。2、然后点击右上角设置。3、点击设置里面的版本切换选项。4、接着在版本切换里选择彩版选项。5、点击搜索,进入搜索页面。6、输入关键词后,点击找人。7、出来的搜索完成界面点击筛选。8、最后在发布时间栏输入具体日期后,点击筛选即可。

1、打开微博,点击我的,再点击右上角的设置选项。2、打开设置之后,找到并点击里面的推送通知设置。3、进入推送通知设置之后,找到特别关注,然后点击实时通知即可。

1、在微博app中点击右下方【我的】进入个人主页。2、然后,点击右上方的齿轮图标。3、这时,我们进入了设置页面,在这里选择【屏蔽设置】进入。4、在屏蔽设置中我们就可以看到自己屏蔽的好友,轻触点击,在弹出的选项中点击【解除屏蔽】即可。5、或者用户们可以直接搜索微博用户进入屏蔽用户户主页,点击右上方【...】也能解除黑名单。

1、首先打开微博,点击我的,点击草稿箱。2、然后长按任意一条草稿,点击清空草稿箱或删除草稿。3、最后点击确定即可。

1、首先打开微博,点击搜索,点击更多热搜。2、然后选择一个热搜进入。3、接着进入热搜的评论实况模式后,找到并点击右上角标准版。4、最后即可回到热搜标准的评论区状态了,想要继续查看实况评论区,点击右上角实况版即可。注:只有当前实时评论很多的情况下才会自动进入实况模式,部分热搜会自动进入实况模式。一般热搜都是标准模式。

1、首先打开手机微博,点击右下角【我】(如图所示)。2、接着点击右上角【齿轮】打开设置(如图所示)。3、然后找到并打开【通用设置】(如图所示)。4、随后进入【视频随着】选项(如图所示)。5、再打开【视频上传清晰度】设置(如图所示)。6、最后选择【原画质】就能不压缩了(如图所示)。

1、首先打开微博,点击我的,点击头像,进入个人主页。2、然后点击背景图。3、接着点击更换视频封面。4、最后在相册中选择视频,点击下一步,进行发布上传即可。

微博用户一旦开通SVIP功能,就可以管理访客记录,而且如果自己去访问某个陌生人的首页,如果在展示之前就可以把他删除掉,这样子他们就不知道是自己浏览首页了,那么?微博svip删除访客记录对方还能看到吗 微博svip删除访客记录对方还能看到吗 1、svip删除访客记录对方就看不到了,只会看到访问人数增加,但是不会显示来访者的ID和头像。 2、普通用户和vip用户无法删除或查看访问记录,只能看到有多少人访问过自己。 3、微博访问的数据会在每日8:00进行更新,如果想要删除访问记录的话需要在
