＂Hadoop/MapReduce/HBase＂分享总结-mysql教程-PHP中文网

＂Hadoop/MapReduce/HBase＂分享总结

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

发布： 2016-06-07 16:30:29

原创

1160 人浏览过

概述：此分享是关于hadoop生态系统的简单介绍包括起源到相对应用技术点： 1.hadoop核心包括Common，HDFS和MapReduce；2.Pig，Hbase，Hive，Zookeeper；3.Hadoop日志分析工具Chukwa；4.MR解决的问题：海量输入数据，简单任务划分和集群计算环境；5.执行流程

概述：

此分享是关于hadoop生态系统的简单介绍包括起源到相对应用

技术点：

1.hadoop核心包括Common，HDFS和MapReduce；
2.Pig，Hbase，Hive，Zookeeper；
3.Hadoop日志分析工具Chukwa；
4.MR解决的问题：海量输入数据，简单任务划分和集群计算环境；
5.执行流程：FileSplit / Map / Combine(Partition)和Copy / Sort / Reduce 
6.分布式计算包括:作业和任务调度和执行，预测执行，故障处理和针对不同应用环境的优化
7.HDFS可靠性措施：NameNode备份，多数据结点(冗余)，数据结点的心跳检测，块报告和完整性检验，NameNode的日志文件和镜像文件；
8.两个系列版本：Apache和Cloudera；
9.SSH无密码访问；
10.内置web服务器：
JobTrackerIP:50030 
TaskTrackerIP:50060 
NamenodeIP:50070 
DatanodeIP:50075 
11.HBase以以Region为单位管理region(startKey,endKey)；
12.HBase的每个Column Family单独存储：storeFile；
13.HBase的RegionServer为Region读写操作的场所；
14.HBase的Master管理Region的分配和基于zookeeper来保证HA；
15.HBase的强一致性：同一行数据的读写只在同一台regionserver上进行；
16.HBase的水平伸缩：region的自动分裂以及master的balance，只用增加datanode机器即可增加容量和增加regionserver机器即可增加读写吞吐量；
17.HBase的行事务；
18.HBase三维有序rowKey (ASC) + columnLabel(ASC) + Version (DESC)  --> value 
19.HBase支持范围查询和高性能随机写 ；
20.HBase基于Hadoop；
21.HBase不支持二级索引和join操作;
22.Hbase具有特定的适用场景;

登录后复制

详情参见附件