目录
 3.1观察者(Observer)
3.2终端(Endpoint)
4.3 典型例子
4.4索引表的使用 " >4.4索引表的使用 
4.5使用时注意 " >4.5使用时注意 
4.6效率情况 " >4.6效率情况 
4.7Coprocessor二级索引方案优劣 " >4.7Coprocessor二级索引方案优劣 
首页 数据库 mysql教程 Hbase的协处理器

Hbase的协处理器

Jun 07, 2016 pm 02:50 PM
hbase 处理器

1.起因(Why HBase Coprocessor) HBase作为列族数据库最经常被人诟病的特性包括:无法轻易建立“二级索引”,难以执行求和、计数、排序等操作。比如,在旧版本的(0.92)Hbase中,统计数据表的总行数,需要使用Counter方法,执行一次MapReduce Job才能得到。虽

1.起因(Why HBase  Coprocessor)

HBase作为列族数据库最经常被人诟病的特性包括:无法轻易建立“二级索引”,难以执行求和、计数、排序等操作。比如,在旧版本的(

2.灵感来源( Source of Inspration)

HBase协处理器的灵感来自于Jeff Dean 09年的演讲( P66-67)。它根据该演讲实现了类似于bigtable的协处理器,包括以下特性:

  • 每个表服务器的任意子表都可以运行代码
  • 客户端的高层调用接口(客户端能够直接访问数据表的行地址,多行读写会自动分片成多个并行的RPC调用)
  • 提供一个非常灵活的、可用于建立分布式服务的数据模型
  • 能够自动化扩展、负载均衡、应用请求路由
HBase的协处理器灵感来自bigtable,但是实现细节不尽相同。HBase建立了一个框架,它为用户提供类库和运行时环境,使得他们的代码能够在HBase region server和master上处理。

3.细节剖析(Implementation)

协处理器分两种类型,系统协处理器可以全局导入region server上的所有数据表,表协处理器即是用户可以指定一张表使用协处理器。协处理器框架为了更好支持其行为的灵活性,提供了两个不同方面的插件。一个是观察者(observer),类似于关系数据库的触发器。另一个是终端(endpoint),动态的终端有点像存储过程。

 3.1观察者(Observer)

观察者的设计意图是允许用户通过插入代码来重载协处理器框架的upcall方法,而具体的事件触发的callback方法由HBase的核心代码来执行。协处理器框架处理所有的callback调用细节,协处理器自身只需要插入添加或者改变的功能。

以HBase0.92版本为例,它提供了三种观察者接口:

  • RegionObserver:提供客户端的数据操纵事件钩子:Get、Put、Delete、Scan等。
  • WALObserver:提供WAL相关操作钩子。
  • MasterObserver:提供DDL-类型的操作钩子。如创建、删除、修改数据表等。

这些接口可以同时使用在同一个地方,按照不同优先级顺序执行.用户可以任意基于协处理器实现复杂的HBase功能层。HBase有很多种事件可以触发观察者方法,这些事件与方法从HBase0.92版本起,都会集成在HBase API中。不过这些API可能会由于各种原因有所改动,不同版本的接口改动比较大,具体参考Java Doc。

RegionObserver工作原理,如图1所示。更多关于Observer细节请参见HBaseBook的第9.6.3章节。

regionobserver.png

图1 RegionObserver工作原理

 

3.2终端(Endpoint)

终端是动态RPC插件的接口,它的实现代码被安装在服务器端,从而能够通过HBase RPC唤醒。客户端类库提供了非常方便的方法来调用这些动态接口,它们可以在任意时候调用一个终端,它们的实现代码会被目标region远程执行,结果会返回到终端。用户可以结合使用这些强大的插件接口,为HBase添加全新的特性。终端的使用,如下面流程所示:

  1. 定义一个新的protocol接口,必须继承CoprocessorProtocol.
  2. 实现终端接口,该实现会被导入region环境执行。
  3. 继承抽象类BaseEndpointCoprocessor.
  4. 在客户端,终端可以被两个新的HBase Client API调用 。单个region:HTableInterface.coprocessorProxy(Class protocol, byte[] row) 。rigons区域:HTableInterface.coprocessorExec(Class protocol, byte[] startKey, byte[] endKey, Batch.Call callable)

整体的终端调用过程范例,如图2所示:

rpc.png

图2 终端调用过程范例

4.编程实践(Code Example)

在该实例中,我们通过计算HBase表中行数的一个实例,来真实感受协处理器 的方便和强大。在旧版的HBase我们需要编写MapReduce代码来汇总数据表中的行数,在0.92以上的版本HBase中,只需要编写客户端的代码即可实现,非常适合用在WebService的封装上。

4.1启用协处理器 Aggregation(Enable Coprocessor Aggregation)

我们有两个方法:1.启动全局aggregation,能过操纵所有的表上的数据。通过修改hbase-site.xml这个文件来实现,只需要添加如下代码:

<span style="margin:0px; padding:0px; line-height:1.8; color:rgb(0,0,255)"><span style="margin:0px; padding:0px; line-height:1.8; color:rgb(128,0,0)">property</span><span style="margin:0px; padding:0px; line-height:1.8; color:rgb(0,0,255)">></span>
   <span style="margin:0px; padding:0px; line-height:1.8; color:rgb(0,0,255)"><span style="margin:0px; padding:0px; line-height:1.8; color:rgb(128,0,0)">name</span><span style="margin:0px; padding:0px; line-height:1.8; color:rgb(0,0,255)">></span>hbase.coprocessor.user.region.classes<span style="margin:0px; padding:0px; line-height:1.8; color:rgb(0,0,255)"></span><span style="margin:0px; padding:0px; line-height:1.8; color:rgb(128,0,0)">name</span><span style="margin:0px; padding:0px; line-height:1.8; color:rgb(0,0,255)">></span>
   <span style="margin:0px; padding:0px; line-height:1.8; color:rgb(0,0,255)"><span style="margin:0px; padding:0px; line-height:1.8; color:rgb(128,0,0)">value</span><span style="margin:0px; padding:0px; line-height:1.8; color:rgb(0,0,255)">></span>org.apache.hadoop.hbase.coprocessor.AggregateImplementation<span style="margin:0px; padding:0px; line-height:1.8; color:rgb(0,0,255)"></span><span style="margin:0px; padding:0px; line-height:1.8; color:rgb(128,0,0)">value</span><span style="margin:0px; padding:0px; line-height:1.8; color:rgb(0,0,255)">></span>
 <span style="margin:0px; padding:0px; line-height:1.8; color:rgb(0,0,255)"></span><span style="margin:0px; padding:0px; line-height:1.8; color:rgb(128,0,0)">property</span><span style="margin:0px; padding:0px; line-height:1.8; color:rgb(0,0,255)">></span></span></span></span>
登录后复制

2.启用表aggregation,只对特定的表生效。通过HBase Shell 来实现。

(1)disable指定表。hbase> disable 'mytable'

(2)添加aggregation hbase> alter 'mytable', METHOD => 'table_att','coprocessor'=>'|org.apache.hadoop.hbase.coprocessor.AggregateImplementation||'

(3)重启指定表 hbase> enable 'mytable'

4.2统计行数代码(Code Snippet) 

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.TableName;
import org.apache.hadoop.hbase.client.Scan;
import org.apache.hadoop.hbase.client.coprocessor.AggregationClient;
import org.apache.hadoop.hbase.client.coprocessor.LongColumnInterpreter;
import org.apache.hadoop.hbase.coprocessor.ColumnInterpreter;
import org.apache.hadoop.hbase.util.Bytes;

public class MyAggregationClient {

	private static final byte[] TABLE_NAME = Bytes.toBytes("bigtable1w");
	private static final byte[] CF = Bytes.toBytes("bd");
	public static void main(String[] args) throws Throwable {
	Configuration customConf = new Configuration();
	customConf.set("hbase.zookeeper.quorum",
	"192.168.58.101");
	//提高RPC通信时长
	customConf.setLong("hbase.rpc.timeout", 600000);
	//设置Scan缓存
	customConf.setLong("hbase.client.scanner.caching", 1000);
	Configuration configuration = HBaseConfiguration.create(customConf);
	AggregationClient aggregationClient = new AggregationClient(
	configuration);
	Scan scan = new Scan();
	//指定扫描列族,唯一值
	scan.addFamily(CF);
	//long rowCount = aggregationClient.rowCount(TABLE_NAME, null, scan);
	long rowCount = aggregationClient.rowCount(TableName.valueOf("bigtable1w"), new LongColumnInterpreter(), scan);
	System.out.println("row count is " + rowCount);

	}
	


}
登录后复制


4.3 典型例子

  协处理器其中的一个作用是使用Observer创建二级索引。先举个实际例子: 
  我们要查询指定店铺指定客户购买的订单,首先有一张订单详情表,它以被处理后的订单id作为rowkey;其次有一张以客户nick为rowkey的索引表,结构如下: 

rowkey family 
dp_id+buy_nick1 tid1:null tid2:null ... 
dp_id+buy_nick2 tid3:null 
... 
该表可以通过Coprocessor来构建,实例代码: 

[html] view plain copy  在CODE上查看代码片派生到我的代码片
  1. public class TestCoprocessor extends BaseRegionObserver {   
  2.     @Override   
  3.      public void prePut(final ObserverContextRegionCoprocessorEnvironment> e,   
  4.      final Put put, final WALEdit edit, final boolean writeToWAL)   
  5.      throws IOException {   
  6.          Configuration conf = new Configuration();   
  7.          HTable table = new HTable(conf, "index_table");   
  8.          ListKeyValue> kv = put.get("data".getBytes(), "name".getBytes());   
  9.          IteratorKeyValue> kvItor = kv.iterator();   
  10.          while (kvItor.hasNext()) {   
  11.              KeyValue tmp = kvItor.next();   
  12.              Put indexPut = new Put(tmp.getValue());   
  13.              indexPut.add("index".getBytes(), tmp.getRow(), Bytes.toBytes(System.currentTimeMillis()));   
  14.              table.put(indexPut);   
  15.          }   
  16.          table.close();   
  17.      }   
  18. }   

即继承BaseRegionObserver类,实现prePut方法,在插入订单详情表之前,向索引表插入索引数据。 

4.4索引表的使用 

先在索引表get索引表,获取tids,然后根据tids查询订单详情表。 
当有多个查询条件(多张索引表),根据逻辑运算符(and 、or)确定tids。 


4.5使用时注意 


1.索引表是一张普通的hbase表,为安全考虑需要开启Hlog记录日志。 
2.索引表的rowkey最好是不可变量,避免索引表中产生大量的脏数据。 
3.如上例子,column是横向扩展的(宽表),rowkey设计除了要考虑region均衡,也要考虑column数量,即表不要太宽。建议不超过3位数。 
4.如上代码,一个put操作其实是先后向两张表put数据,为保证一致性,需要考虑异常处理,建议异常时重试。 

4.6效率情况 


put操作效率不高,如上代码,每插入一条数据需要创建一个新的索引表连接(可以使用htablepool优化),向索引表插入数据。即耗时是双倍的,对hbase的集群的压力也是双倍的。当索引表有多个时,压力会更大。 
查询效率比filter高,毫秒级别,因为都是rowkey的查询。 
如上是估计的效率情况,需要根据实际业务场景和集群情况而定,最好做预先测试。 

4.7Coprocessor二级索引方案优劣 


优点:在put压力不大、索引region均衡的情况下,查询很快。 
缺点:业务性比较强,若有多个字段的查询,需要建立多张索引表,需要保证多张表的数据一致性,且在hbase的存储和内存上都会有更高的要求
本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

AMD 锐龙 9900X、9700X、9600X 处理器 Cinebench R23 跑分曝光,平均提升 10~15% AMD 锐龙 9900X、9700X、9600X 处理器 Cinebench R23 跑分曝光,平均提升 10~15% Jul 29, 2024 am 11:38 AM

本站7月29日消息,AMD锐龙9000系列处理器现已上架京东预约,首批推出四个型号产品,8月15日发售。这些处理器的评测数据将于上市前一天,也就8月14日解禁,但也有部分媒体或机构提前拿到了样品并开始测试,所以目前R99900X、R79700X、R59600X处理器跑分数据已经泄露。▲图源:@9550pro整体来看,从Zen4到Zen5预计会带来10%到15%的单核性能提升,以及10%到13%的多核性能提升,但相比锐龙7000系列TDP有所降低,这也符合AMD官方公布的IPC提升数据。Ryzen

精粤实测:AMD R7 8700F、R5 8400F 无核显处理器性能近似于 8700G 和 7500F 精粤实测:AMD R7 8700F、R5 8400F 无核显处理器性能近似于 8700G 和 7500F Apr 06, 2024 am 09:01 AM

本站4月5日消息,精粤官方确认上个月曝光的AMDR78700F和R58400F无核显处理器为中国特供型号,并放出了全网首个测试视频,确认两者均无核显,TDP配置均为65W。规格方面,AMDRyzen78700F拥有8核16线程,基础频率为4.1GHz,加速频率为5.05GHz,与Ryzen78700G相比降低了0.10/0.05GHz,配备16MB的L3缓存。AMDRyzen58400F采用6核12线程设计,频率4.2~4.75GHz,相较于R57500F基础频率提高0.1GHz,加速频率降低0

144 核心,3D 堆叠 SRAM:富士通详细介绍下一代数据中心处理器 MONAKA 144 核心,3D 堆叠 SRAM:富士通详细介绍下一代数据中心处理器 MONAKA Jul 29, 2024 am 11:40 AM

本站7月28日消息,据外媒TechRader报道,富士通详细介绍了计划于2027年出货的FUJITSU-MONAKA(以下简称MONAKA)处理器。MONAKACPU基于“云原生3D众核”架构,采用Arm指令集,面向数据中心、边缘与电信领域,适用于AI计算,能实现大型机级别的RAS1。富士通表示,MONAKA将在能效和性能方面实现飞跃:得益于超低电压(ULV)工艺等技术,该CPU可实现2027年竞品2倍的能效,冷却无需水冷;此外该处理器的应用性能也可达对手2倍。在指令方面,MONAKA配备的矢量

AMD 锐龙 9 9950X 超频至 6.6 GHz,CineBench R23 最高得分 55296 分 AMD 锐龙 9 9950X 超频至 6.6 GHz,CineBench R23 最高得分 55296 分 Jul 17, 2024 pm 09:49 PM

本站7月16日消息,AMDXOC团队在Zen5技术日上,为现场受邀媒体和嘉宾演示超频锐龙99950X处理器,通过液氮(LN2)方式超频该处理器,在CineBenchR23中的得分超过5.5万,功耗高达552W。XOC团队使用的超频平台是华硕X670EROGCorsshairGene主板,这是一款专为超频玩家设计的主板,配备了2个DDR5DIMM。锐龙99950X处理器使用液氮后运行温度降至零下90摄氏度,功耗为552W,CPU超频在6.4GHz下,在CineBenchR23中的得分超过55296

多核破 10 万,AMD EPYC 9755 处理器 CPU-Z 跑分曝光:比 EPYC 9654 快 14% 多核破 10 万,AMD EPYC 9755 处理器 CPU-Z 跑分曝光:比 EPYC 9654 快 14% Jul 25, 2024 am 10:46 AM

本站7月25日消息,消息源HXL(@9550pro)昨日(7月24日)发布推文,分享了基于Zen5的AMDEPYC9755“Turin”CPU相关信息,并在CPU-Z基准测试中取得了优异成绩。AMDEPYC9755“Turin”CPU信息EPYC9755是AMD的第五代EPYC家族产品,在Zen5架构上配有128个核心和256个线程。EPYC9755处理器的基础时钟频率为2.70GHz,加速时钟频率可以达到4.10GHz,相比较前代核心/线程数增加了33%,时钟频率增加了11%。EPYC9755

AMD 公布'Sinkclose”高危漏洞,数百万锐龙和 EPYC 处理器受影响 AMD 公布'Sinkclose”高危漏洞,数百万锐龙和 EPYC 处理器受影响 Aug 10, 2024 pm 10:31 PM

本站8月10日消息,AMD官方确认,部分EPYC和Ryzen处理器存在一个名为“Sinkclose”的新漏洞,代码为“CVE-2023-31315”,可能涉及全球数百万AMD用户。那么,什么是Sinkclose呢?根据WIRED的一份报告,该漏洞允许入侵者在“系统管理模式(SMM)”中运行恶意代码。据称,入侵者可以使用一种名为bootkit的恶意软件控制对方系统,而这种恶意软件无法被杀毒软件检测到。本站注:系统管理模式(SMM)是一种特殊的CPU工作模式,旨在实现高级电源管理和操作系统独立功能,

AMD 锐龙 7 9700X 处理器现身 Geekbench:单核跑分比 R7 7700X 高 14% AMD 锐龙 7 9700X 处理器现身 Geekbench:单核跑分比 R7 7700X 高 14% Jul 12, 2024 pm 01:59 PM

本站7月9日消息,现有一款搭载AMD锐龙79700X处理器的华硕测试机出现在了Geekbench数据库中,配备ROGCROSSHAIRX670EHERO主板、32GBDDR56000内存。AMD锐龙79700X具有8核16线程、3.8GHz基础频率、5.5GHz加速频率、40MB缓存(本站注:32MBL3+8MBL2)和65W的TDP设计,不过也有消息称AMD已使其TDP提高至120W。如图所示,该测试平台在Geekbench6.3.0上跑出了3312分、16431分的单多核成绩,比R77700

麒麟8000处理器抗衡骁龙系列:谁能称王? 麒麟8000处理器抗衡骁龙系列:谁能称王? Mar 25, 2024 am 09:03 AM

在移动互联网时代,智能手机已经成为人们日常生活中不可或缺的一部分。而智能手机的性能表现往往直接决定了用户体验的好坏。作为智能手机的“大脑”,处理器的性能表现尤为重要。在市场上,高通骁龙系列一直以来都是性能强劲、稳定可靠的代表,而最近华为也推出了自家研发的麒麟8000处理器,据称性能优异。对于普通用户来说,如何选择一款性能强劲的手机成为一个关键问题。今天我们就

See all articles