深入分析HBase-Phoenix执行机制与原理-mysql チュートリアル-php.cn

ホームページ

データベース

mysql チュートリアル

深入分析HBase-Phoenix执行机制与原理

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 07, 2016 pm 04:31 PM

原理埋め込む機構徹底した分析

针对HBase上SQL解决方案，目前社区内比较热门的有Cloudera的Impala，Horntworks的Drill，以及Hive。根据与HBase的操作方式，可以分为三种：以MapReduce为核心，单个任务使用hbase-client原始接口访问；以Google Dremel为核心，单个任务使用hbase-client原

针对HBase上SQL解决方案，目前社区内比较热门的有Cloudera的Impala，Horntworks的Drill，以及Hive。根据与HBase的操作方式，可以分为三种：

以MapReduce为核心，单个任务使用hbase-client原始接口访问；

以Google Dremel为核心，单个任务使用hbase-client原始接口访问；

以HBase-Coprocessor为核心，结合Google Dremel的思想，客户端合并多个节点的处理结果。

Phoenix的安装:

1）git clone?https://github.com/forcedotcom/phoenix.git

2）安装apache-maven，可以自行google

3）mvn process-sources

4）mvn package -DskipTests

5）拷贝phoenix-{versionid}.jar到HBASE_HOME/lib/下，重启RS

6）java -jar?phoenix-{versionid}-client.jar $(zkquorum) example/web_stat.sql example/web_stat.csv?//导入数据

7）java -jar?phoenix-{versionid}-client.jar $(zkquorum) example/web_stat_query.sql //执行查询

对于SQL查询的解析过程：

antlr3/PhoenixSQL.g ?===antlr===〉

ls ${PHOENIX_HOME}/target/generated-sources/antlr3/com/salesforce/phoenix/parse
PhoenixSQLLexer.java? PhoenixSQLParser.java? PhoenixSQL.tokens

这里以一条Select语句为例子介绍其中的流程：

SELECT DOMAIN, AVG(CORE) Average_CPU_Usage, AVG(DB) Average_DB_Usage

FROM WEB_STAT
GROUP BY DOMAIN
ORDER BY DOMAIN DESC;

1）提交的SQL语句，?PhoenixSQLLexer执行词法解析。注意这里的PhoenixSQLLexer是从src/antlr3/PhoenixSQL.g，经过antlr的翻译，生成的java代码。

目前SQL语句中可以识别的Token有：

tokens
{
SELECT=’select’;
FROM=’from’;
USING=’using’;
WHERE=’where’;
NOT=’not’;
AND=’and’;
OR=’or’;
NULL=’null’;
TRUE=’true’;
FALSE=’false’;
LIKE=’like’;
AS=’as’;
OUTER=’outer’;
ON=’on’;
IN=’in’;
GROUP=’group’;
HAVING=’having’;
ORDER=’order’;
BY=’by’;
ASC=’asc’;
DESC=’desc’;
NULLS=’nulls’;
LIMIT=’limit’;
FIRST=’first’;
LAST=’last’;
DATA=’data’;
CASE=’case’;
WHEN=’when’;
THEN=’then’;
ELSE=’else’;
END=’end’;
EXISTS=’exists’;
IS=’is’;
FIRST=’first’;
DISTINCT=’distinct’;
JOIN=’join’;
INNER=’inner’;
LEFT=’left’;
RIGHT=’right’;
FULL=’full’;
BETWEEN=’between’;
UPSERT=’upsert’;
INTO=’into’;
VALUES=’values’;
DELETE=’delete’;
CREATE=’create’;
DROP=’drop’;
PRIMARY=’primary’;
KEY=’key’;
ALTER=’alter’;
COLUMN=’column’;
TABLE=’table’;
ADD=’add’;
SPLIT=’split’;
EXPLAIN=’explain’;
VIEW=’view’;
IF=’if’;
CONSTRAINT=’constraint’;
}

2）根据PhoenixSQLParser的解析确定com.salesforce.phoenix.jdbc.PhoenixStatement.ExecutableStatement(Interface)的类型，目前有如下几类：

增删数据：ExecutableAddColumnStatement、ExecutableDropColumnStatement
创建/删除表格：ExecutableCreateTableStatement、ExecutableDropTableStatement
Select操作：ExecutableSelectStatement
导入数据：ExecutableUpsertStatement
解释执行：ExecutableExplainStatement

3）执行(2)中提供的实例化的ExecutableStatement提供executeQuery方法：

创建QueryCompiler。
执行compile过程。(识别limit、having、where、order、projector等操作，生成ScanPlan）
封装Scanner，并根据识别出的修饰词，对于结果进行修饰，整合出ResultIterator的各种功能的实现，具体在com.salesforce.phoenix.iterator包下。
该SQL对应的包装类为：OrderedAggregatingResultIterator.//它是如何组织数据，保证数据按照DESC或者ASC的方式展示？

在Delegator当中创建：

rowAggregators = {

instance of com.salesforce.phoenix.expression.function.CountAggregateFunction$1(id=2409), instance of com.salesforce.phoenix.expression.function.CountAggregateFunction$1(id=2410), instance of com.salesforce.phoenix.expression.aggregator.LongSumAggregator(id=2411), instance of com.salesforce.phoenix.expression.aggregator.LongSumAggregator(id=2412)
}

对于创建表格的逻辑：

1）解析SQL，翻译可执行的ExecutableCreateTableStatement，实例化MutationPlan。

2）创建MetaDataClient对象，将解析出的Statement转换成PTable的模型，更新SYSTEM.TABLE中的内容.（如果SYSTEM.TABLE不存在，还需要创建该表）

3）调用PhoenixConnection.addTable操作，这里会根据ConnectionQueryServicesImpl执行相关的服务。

4）加载Coprocessor。

? ? ? ? ? ? descriptor.addCoprocessor(ScanRegionObserver.class.getName(), phoenixJarPath, 1, null);
descriptor.addCoprocessor(UngroupedAggregateRegionObserver.class.getName(), phoenixJarPath, 1, null);
descriptor.addCoprocessor(GroupedAggregateRegionObserver.class.getName(), phoenixJarPath, 1, null);
descriptor.addCoprocessor(HashJoiningRegionObserver.class.getName(), phoenixJarPath, 1, null);

这里加载的Coprocessor有：

ScanRegionObserver:封装RegionObserver.postScannerOpen接口，捕获出现的异常。即在scanner开启之后，做基本遍历，属于基础类实现。

UngroupedAggregateRegionObserver:

GroupedAggregateRegionObserver

HashJoiningRegionObserver

会在RegionCoprocessorHost的组织下，分别执行这四个类的doPostScanOpen操作，会根据QueryPlan以及Statement中包含的信息，进行功能筛选和组装，最终被返回的结果，是已经按照需求处理过的，从而实现类似于GroupBy、Sort等操作。

2）

Coprocessor机制：

包括两部分，Observer和Endpoint

Observer有RegionObserver、WALObserver、MasterObserver。用来实现固定执行点的”插桩”的功能，有点像关系型数据库当中的触发器的功能。

这里以RegionObserver的实现为例，介绍一下其中实现细节。

1）为Table加载Observer接口的实现类。

2）客户端调用某个操作的位置时，调用接口。例如，RegionObserver的postScannerOpen()会在执行scannerOpen之后执行。

3）每一个Region设置一个RegionCoprocessorHost，负责管理加载到该Region的Coprocessor。

4）每一个Region设置一个RegionCoprocesorEnvironment，封装在ObserverContext当中，作为执行Coprocessor的上下文环境。

Endpoint不同于Observer，虽然它也是被加载到Region上，但是它的执行方式，是由Client端借助Table.coprocessorExec执行，是client到Regions的一次或者多次RPC操作，有时可能还需要在Client端对获取到的数据进行合并。可以查看一例：使用Coprocessor进行RowCount统计?http://www.binospace.com/index.php/make-your-hbase-better-2/

本系列文章属于Binos_ICT在Binospace个人技术博客原创，原文链接为http://www.binospace.com/index.php/in-depth-analysis-hbase-phoenix,未经允许，不得转载。

From Binospace, post 深入分析HBase-Phoenix执行机制与原理

文章的脚注信息由WordPress的wp-posturl插件自动生成

Copyright © 2008
This feed is for personal, non-commercial use only.
The use of this feed on other websites breaches copyright. If this content is not in your news reader, it makes the page you are viewing an infringement of the copyright. (Digital Fingerprint:
)

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7411

Java チュートリアル

1631

CakePHP チュートリアル

1358

Laravel チュートリアル

1268

PHP チュートリアル

1218

Related knowledge

nohupの機能と原理の解析 Mar 25, 2024 pm 03:24 PM

nohup の役割と原理の分析 Unix および Unix 系オペレーティングシステムでは、nohup はバックグラウンドでコマンドを実行するためによく使用されるコマンドです。ユーザーが現在のセッションを終了したり、ターミナルウィンドウを閉じたりしても、コマンドはまだ実行され続けています。この記事では、nohup コマンドの機能と原理を詳しく分析します。 1. nohup の役割: バックグラウンドでのコマンドの実行: nohup コマンドを使用すると、ターミナルセッションを終了するユーザーの影響を受けることなく、長時間実行されるコマンドをバックグラウンドで実行し続けることができます。これは実行する必要があります

Struts フレームワークの原則と実践についての深い議論 Feb 18, 2024 pm 06:10 PM

Struts フレームワークの原理分析と実践的な調査 JavaWeb 開発で一般的に使用される MVC フレームワークとして、Struts フレームワークは優れた設計パターンとスケーラビリティを備えており、エンタープライズレベルのアプリケーション開発で広く使用されています。この記事では、Struts フレームワークの原理を分析し、読者がフレームワークをよりよく理解して適用できるように、実際のコード例を使用してそれを検討します。 1. Struts フレームワークの原理の分析 1. MVC アーキテクチャ Struts フレームワークは MVC (Model-View-Con) に基づいています。

MyBatis のバッチ挿入実装原理の深い理解 Feb 21, 2024 pm 04:42 PM

MyBatis は、さまざまな Java プロジェクトで広く使用されている人気のある Java 永続層フレームワークです。その中でも、バッチ挿入は、データベース操作のパフォーマンスを効果的に向上させることができる一般的な操作です。この記事では、MyBatis でのバッチ挿入の実装原理を深く調査し、特定のコード例を使用して詳細に分析します。 MyBatis でのバッチ挿入 MyBatis では、通常、バッチ挿入操作は動的 SQL を使用して実装されます。複数の挿入値を含む S を構築することによって

MyBatis ページングプラグインの原理の詳細な説明 Feb 22, 2024 pm 03:42 PM

MyBatis は優れた永続層フレームワークであり、XML とアノテーションに基づいたデータベース操作をサポートし、シンプルで使いやすく、豊富なプラグインメカニズムも提供します。その中でも、ページングプラグインは、よく使用されるプラグインの 1 つです。この記事では、MyBatis ページングプラグインの原理を詳しく説明し、具体的なコード例で説明します。 1. ページングプラグインの原理 MyBatis 自体はネイティブページング機能を提供しませんが、プラグインを使用してページングクエリを実装できます。ページングプラグインの原理は主に MyBatis を傍受することです

Linuxのchageコマンドの機能と動作原理の詳細な分析 Feb 24, 2024 pm 03:48 PM

Linuxシステムのchageコマンドは、ユーザーアカウントのパスワード有効期限を変更するコマンドであり、アカウントの最長使用日と最短使用可能日を変更することもできます。このコマンドはユーザーアカウントのセキュリティ管理において非常に重要な役割を果たし、ユーザーパスワードの使用期間を効果的に制御し、システムのセキュリティを強化します。 CHAGE コマンドの使用方法: CHAGE コマンドの基本構文は次のとおりです: chage [オプション] ユーザー名たとえば、ユーザー「testuser」のパスワードの有効期限を変更するには、次のコマンドを使用できます。

徹底した分析: Go 言語の真のパフォーマンスレベルはどれくらいですか? Jan 30, 2024 am 10:02 AM

徹底した分析: Go 言語のパフォーマンスは何ですか?はじめに: 今日のソフトウェア開発の世界では、パフォーマンスが重要な要素です。開発者にとって、優れたパフォーマンスを備えたプログラミング言語を選択すると、ソフトウェアアプリケーションの効率と品質を向上させることができます。最新のプログラミング言語として、Go 言語は多くの開発者によって高性能言語であると考えられています。この記事では、Go 言語のパフォーマンス特性を詳しく掘り下げ、特定のコード例を通じて分析します。 1. 同時実行機能: 同時実行に基づいたプログラミング言語として、Go 言語は優れた同時実行機能を備えています。

Linux RPM ツールの機能と原理についての詳細な説明 Feb 23, 2024 pm 03:00 PM

Linux システムの RPM (RedHatPackageManager) ツールは、システムソフトウェアパッケージのインストール、アップグレード、アンインストール、管理を行うための強力なツールです。これは RedHatLinux システムで一般的に使用されるソフトウェアパッケージ管理ツールであり、他の多くの Linux ディストリビューションでも使用されます。 RPM ツールの役割は非常に重要で、システム管理者とユーザーがシステム上のソフトウェアパッケージを簡単に管理できるようになります。 RPM を通じて、ユーザーは新しいソフトウェアパッケージを簡単にインストールし、既存のソフトウェアをアップグレードできます。

Astar ステーキングの原則、収入の解体、エアドロッププロジェクトと戦略、および運営のナニーレベルの戦略 Jun 25, 2024 pm 07:09 PM

目次 Astar Dapp ステーキングの原則ステーキング収益潜在的なエアドロッププロジェクトの解体: AlgemNeurolancheHealthreeAstar Degens DAOVeryLongSwap ステーキング戦略と運用「AstarDapp ステーキング」は今年初めに V3 バージョンにアップグレードされ、ステーキング収益に多くの調整が加えられましたルール。現在、最初のステーキングサイクルが終了し、2 番目のステーキングサイクルの「投票」サブサイクルが始まったばかりです。「追加報酬」特典を獲得するには、この重要な段階を把握する必要があります (6 月 26 日まで続く予定で、残りは 5 日未満です)。 Astarステーキング収入を詳しく説明します。

See all articles