Hive SQL解析/执行计划生成流程分析-mysql教程-PHP中文網

首頁

資料庫

mysql教程

Hive SQL解析/执行计划生成流程分析

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 07, 2016 pm 04:29 PM

hive sql 分析執行流程產生解析計劃

最近在研究Impala，还是先回顾下Hive的SQL执行流程吧。 Hive有三种用户接口： cli (Command line interface) bin/hive或bin/hive –service cli 命令行方式（默认） hive-server/hive-server2 bin/hive –service hiveserver 或bin/hive –service hiveserve

最近在研究Impala，还是先回顾下Hive的SQL执行流程吧。

Hive有三种用户接口：

cli (Command line interface)	bin/hive或bin/hive –service cli	命令行方式（默认）
hive-server/hive-server2	bin/hive –service hiveserver 或bin/hive –service hiveserver2	通过JDBC/ODBC和Thrift访问（Impala通过这种方式借用hive-metastore）
hwi (Hive web interface)	bin/hive –service hwi	通过浏览器访问

在hive shell中输入“show tables;”实际执行的是：

bin/hadoop jar hive/lib/hive-cli-0.9.0.jar org.apache.hadoop.hive.cli.CliDriver -e 'SHOW TABLES;'

登入後複製

CLI入口函数：cli.CliDriver.main()

读入参数->建立SessionState并导入配置->处理输入文件中指令CliDriver.processFile()；或交互型指令CliDriver.processLine()->解析输入CliDriver.processCmd()

(1) 如果是quit或者exit，退出

(2) 以source开头的，读取外部文件并执行文件中的HiveQL

(3) ！开头的命令，执行操作系统命令（如!ls，列出当前目录的文件信息）

(4) list，列出jar/file/archive

(5) 其他命令，则生成调用相应的CommandProcessor处理，进入CliDriver.processLocalCmd()

下面看看CliDriver.processLocalCmd()这个函数：

set/dfs/add/delete指令交给指定的CommandProcessor处理，其余的交给org.apache.hadoop.hive.ql.Driver.run()处理

org.apache.hadoop.hive.ql.Driver类是查询的起点，run()方法会先后调用compile()和execute()两个函数来完成查询，所以一个command的查询分为compile和execute两个阶段。

Compile

(1)利用antlr生成的HiveLexer.java和HiveParser.java类，将HiveQL转换成抽象语法树（AST）。

首先使用antlr工具将srcqlsrcjavaorgapachehadoophiveqlparsehive.g编译成以下几个文件：HiveParser.java,?Hive.tokens,?Hive__.g,?HiveLexer.java

HiveLexer.java和HiveParser.java分别是词法和语法分析类文件，Hive__.g是HiveLexer.java对应的词法分析规范，Hive.tokens定义了词法分析后所有的token。

然后沿着“Driver.compile()->ParseDriver.parse(command, ctx)->HiveParserX.statement()->antlr中的API”这个调用关系把输入的HiveQL转化成ASTNode类型的语法树。HiveParserX是由antlr生成的HiveParser类的子类。

(2)利用对应的SemanticAnalyzer类，将AST树转换成Map-reduce task。主要分为三个步骤：

a) AST -> operator DAG

b) optimize operator DAG

c) oprator DAG -> Map-reduce task

首先接着上一步生成的语法树ASTNode，?SemanticAnalyzerFactory会根据ASTNode的token类型生成不同的SemanticAnalyzer (所有这些SemanticAnalyzer都继承自BaseSemanticAnalyzer)

1) ExplainSemanticAnalyzer

2) LoadSemanticAnalyzer

3) ExportSemanticAnalyzer

4) DDLSemanticAnalyzer

5) FunctionSemanticAnalyzer

6) SemanticAnalyzer

然后调用BaseSemanticAnalyzer.analyze()->BaseSemanticAnalyzer. analyzeInternal()。

下面以最常见的select * from table类型的查询为例，进入的子类是SemanticAnalyzer. analyzeInternal()，这个函数的逻辑如下：

1) doPhase1()：将sql语句中涉及到的各种信息存储起来，存到QB中去，留着后面用。

2) getMetaData()：获取元数据信息，主要是sql中涉及到的表和元数据的关联

3) genPlan()：生成operator tree/DAG

4) optimize：优化，对operator tree/DAG 进行一些优化操作，例如列剪枝等（目前只能做rule-based optimize，不能做cost-based optimize）

5) genMapRedTasks()：将operator tree/DAG 通过一定的规则生成若干相互依赖的MR任务

Execute

将Compile阶段生成的task信息序列化到plan.xml，然后启动map-reduce，在configure时反序列化plan.xml

实例分析：

在hive中有这样一张表：

uid	fruit_name	count
a	apple	5
a	orange	3
a	apple	2
b	banana	1

执行如下的查询：

SELECT uid, SUM(count) FROM logs GROUP BY uid

登入後複製

通过explain命令可以查看执行计划：

EXPLAIN SELECT uid, SUM(count) FROM logs GROUP BY uid;

登入後複製

依照hive.g的语法规则，生成AST如下:

ABSTRACT SYNTAX TREE:
(
  TOK_QUERY
  (TOK_FROM (TOK_TABREF (TOK_TABNAME logs)))
  (
    TOK_INSERT
    (TOK_DESTINATION (TOK_DIR TOK_TMP_FILE))
    (
      TOK_SELECT
      (TOK_SELEXPR (TOK_TABLE_OR_COL uid))
      (TOK_SELEXPR (TOK_FUNCTION sum (TOK_TABLE_OR_COL count)))
    )
    (TOK_GROUPBY (TOK_TABLE_OR_COL uid))
  )
)

登入後複製

生成的执行计划operator tree/DAG如下：

STAGE DEPENDENCIES:
  Stage-1 is a root stage
  Stage-0 is a root stage
STAGE PLANS:
  Stage: Stage-1
    Map Reduce
      Alias -> Map Operator Tree:
        logs
          TableScan // 扫描表
            alias: logs
            Select Operator //选择字段
              expressions:
                    expr: uid
                    type: string
                    expr: count
                    type: int
              outputColumnNames: uid, count
              Group By Operator //在map端先做一次聚合，减少shuffle数据量
                aggregations:
                      expr: sum(count) //聚合函数
                bucketGroup: false
                keys:
                      expr: uid
                      type: string
                mode: hash
                outputColumnNames: _col0, _col1
                Reduce Output Operator //输出key，value给reduce
                  key expressions:
                        expr: _col0
                        type: string
                  sort order: +
                  Map-reduce partition columns:
                        expr: _col0
                        type: string
                  tag: -1
                  value expressions:
                        expr: _col1
                        type: bigint
      Reduce Operator Tree:
        Group By Operator
          aggregations:
                expr: sum(VALUE._col0) //聚合
          bucketGroup: false
          keys:
                expr: KEY._col0
                type: string
          mode: mergepartial
          outputColumnNames: _col0, _col1
          Select Operator //选择字段
            expressions:
                  expr: _col0
                  type: string
                  expr: _col1
                  type: bigint
            outputColumnNames: _col0, _col1
            File Output Operator //输出到文件
              compressed: false
              GlobalTableId: 0
              table:
                  input format: org.apache.hadoop.mapred.TextInputFormat
                  output format: org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat
  Stage: Stage-0
    Fetch Operator
      limit: -1

登入後複製

Hive优化策略：

1. 去除查询中不需要的column

2. Where条件判断等在TableScan阶段就进行过滤

3. 利用Partition信息，只读取符合条件的Partition

4. Map端join，以大表作驱动，小表载入所有mapper内存中

5. 调整Join顺序，确保以大表作为驱动表

6. 对于数据分布不均衡的表Group by时，为避免数据集中到少数的reducer上，分成两个map-reduce阶段。第一个阶段先用Distinct列进行shuffle，然后在reduce端部分聚合，减小数据规模，第二个map-reduce阶段再按group-by列聚合。

7. 在map端用hash进行部分聚合，减小reduce端数据处理规模。

参考文献：

http://fatkun.com/2013/01/hive-group-by.html

原文地址：Hive SQL解析/执行计划生成流程分析, 感谢原作者分享。

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

熱工具

熱門話題

Java教學

1666

CakePHP 教程

1425

Laravel 教程

1325

PHP教程

1273

C# 教程

1252

Related knowledge

Hibernate 框架中 HQL 和 SQL 的差異是什麼？ Apr 17, 2024 pm 02:57 PM

HQL和SQL在Hibernate框架中進行比較：HQL（1.物件導向語法，2.資料庫無關的查詢，3.類型安全），而SQL直接操作資料庫（1.與資料庫無關的標準，2.可執行複雜查詢和資料操作）。

怎麼開多個頭條帳號？申請頭條號小號的流程是什麼？ Mar 22, 2024 am 11:00 AM

隨著行動互聯網的普及，今日頭條已成為我國最受歡迎的新聞資訊平台之一。許多用戶希望在頭條平台上擁有多個帳號，以滿足不同的需求。那麼，如何開立多個頭條帳號呢？本文將詳細介紹開設多個頭條帳號的方法和申請流程。一、怎麼開多個頭條帳號？開設多個頭條帳號的方法如下：在頭條平台上，用戶可以透過不同的手機號碼註冊帳號。每個手機號只能註冊一個頭條帳號，這表示用戶可以利用多個手機號註冊多個帳號。 2.郵箱註冊：使用不同的郵箱地址註冊頭條帳號。與手機號碼註冊類似，每個郵箱地址也可以註冊一個頭條帳號。 3.第三方帳號登入

PHP 中點的意思和用法解析 Mar 27, 2024 pm 08:57 PM

【PHP中點的意義和用法解析】在PHP中，中點（.）是常用的運算符，用來連接兩個字串或物件的屬性或方法。在本文中，我們將深入探討PHP中點的意義和用法，並透過具體的程式碼範例加以說明。 1.連接字串中點運算子.在PHP中最常見的用法是連接兩個字串。透過將.放置在兩個字串之間，可以將它們拼接在一起，形成一個新的字串。 $string1=&qu

抖音睡眠主播有收益嘛？睡眠直播的具體流程有哪些？ Mar 21, 2024 pm 04:41 PM

在當今這個快節奏的社會，睡眠品質問題困擾著越來越多的人。為了改善用戶的睡眠質量，抖音平台上出現了一群特殊的睡眠主播。他們透過直播與用戶互動，分享睡眠技巧，提供放鬆的音樂和聲音，幫助觀眾安然入睡。那麼，這些睡眠主播是否有收益呢？本文將圍繞這一問題展開探討。一、抖音睡眠主播有收益嘛？抖音睡眠主播確實能夠獲得一定的效益。首先，他們可以透過直播間的打賞功能獲得禮物和轉賬，這些收益取決於他們的粉絲數量和觀眾滿意度。其次，抖音平台會依照直播的觀看量、按讚量、分享量等數據，給予主播一定的分成。一些睡眠主播還會

華為 P70 直接開啟先鋒計畫正式開售 Apr 19, 2024 pm 01:58 PM

中關村消息：4月18日早上，華為突然宣布P70系列手機開啟先鋒計畫正式開售，想要購買的朋友要準備行動起來了，按照以往慣例，華為的旗艦手機非常搶手，會一直處於缺貨狀態。這次華為P70系列改名為Pura，意為純粹。在此前華為餘承東表示：自2012年起，華為P系列智慧型手機便如同忠實的伙伴，伴隨全球億萬用戶度過了無數珍貴時刻，共同見證了生活中的美好與精彩紛呈。他深刻感悟，每位選擇華為P系列的用戶所給予的信任與熱愛，無異於一股強大的推動力，始終鼓舞著華為在創新之路上堅定前行。 Pura的意思是純粹的。

MySQL連線數對資料庫效能的影響分析 Mar 16, 2024 am 10:09 AM

MySQL連線數對資料庫效能的影響分析隨著網路應用的不斷發展，資料庫成為了支援應用系統重要的資料儲存和管理工具。在資料庫系統中，連線數是一個重要的概念，它直接關係到資料庫系統的效能和穩定性。本文將從MySQL資料庫的角度出發，探討連線數對資料庫效能的影響，並透過具體的程式碼範例進行分析。一、連線數是什麼？連線數指的是資料庫系統同時支援的客戶端連線數，也可以理

Win11新功能解析：跳過登入微軟帳號的方法 Mar 27, 2024 pm 05:24 PM

Win11新功能解析：跳過登入微軟帳號的方法隨著Windows11的發布，許多用戶發現其帶來了更多的便利性和新功能。然而，有些用戶可能不喜歡將其係統與微軟帳戶綁定，希望跳過這一步驟。本文將介紹一些方法，幫助使用者在Windows11中跳過登入微軟帳戶，並實現更私密、更自主的使用體驗。首先，讓我們來了解為什麼有些用戶不願意登入微軟帳號。一方面，一些用戶擔心他們

分析騰訊主要的程式語言是否為Go Mar 27, 2024 pm 04:21 PM

標題：騰訊主要的程式語言是否為Go:一項深入分析騰訊作為中國領先的科技公司，在程式語言的選擇上一直備受關注。近年來，有人認為騰訊主要採用Go作為主要的程式語言。本文將對騰訊主要的程式語言是否為Go進行深入分析，並給出具體的程式碼範例來支持這一觀點。一、Go語言在騰訊的應用Go是一種由Google開發的開源程式語言，它的高效性、並發性和簡潔性受到眾多開發者的喜

See all articles

Hive SQL解析/执行计划生成流程分析

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題