Maison base de données tutoriel mysql Hive SQL解析/执行计划生成流程分析

Hive SQL解析/执行计划生成流程分析

Jun 07, 2016 pm 04:29 PM
hive sql 分析 执行 流程 生成 解析 计划

最近在研究Impala,还是先回顾下Hive的SQL执行流程吧。 Hive有三种用户接口: cli (Command line interface) bin/hive或bin/hive –service cli 命令行方式(默认) hive-server/hive-server2 bin/hive –service hiveserver 或bin/hive –service hiveserve

最近在研究Impala,还是先回顾下Hive的SQL执行流程吧。

Hive有三种用户接口:

cli (Command line interface) bin/hive或bin/hive –service cli 命令行方式(默认)
hive-server/hive-server2 bin/hive –service hiveserver 或bin/hive –service hiveserver2 通过JDBC/ODBC和Thrift访问(Impala通过这种方式借用hive-metastore)
hwi (Hive web interface) bin/hive –service hwi 通过浏览器访问

在hive shell中输入“show tables;”实际执行的是:

bin/hadoop jar hive/lib/hive-cli-0.9.0.jar org.apache.hadoop.hive.cli.CliDriver -e 'SHOW TABLES;'
Copier après la connexion

CLI入口函数:cli.CliDriver.main()

读入参数->建立SessionState并导入配置->处理输入文件中指令CliDriver.processFile();或交互型指令CliDriver.processLine()->解析输入CliDriver.processCmd()

(1) 如果是quit或者exit,退出

(2) 以source开头的,读取外部文件并执行文件中的HiveQL

(3) !开头的命令,执行操作系统命令(如!ls,列出当前目录的文件信息)

(4) list,列出jar/file/archive

(5) 其他命令,则生成调用相应的CommandProcessor处理,进入CliDriver.processLocalCmd()

下面看看CliDriver.processLocalCmd()这个函数:

set/dfs/add/delete指令交给指定的CommandProcessor处理,其余的交给org.apache.hadoop.hive.ql.Driver.run()处理

org.apache.hadoop.hive.ql.Driver类是查询的起点,run()方法会先后调用compile()和execute()两个函数来完成查询,所以一个command的查询分为compile和execute两个阶段。

Compile

(1)利用antlr生成的HiveLexer.java和HiveParser.java类,将HiveQL转换成抽象语法树(AST)。

首先使用antlr工具将srcqlsrcjavaorgapachehadoophiveqlparsehive.g编译成以下几个文件:HiveParser.java,?Hive.tokens,?Hive__.g,?HiveLexer.java

HiveLexer.java和HiveParser.java分别是词法和语法分析类文件,Hive__.g是HiveLexer.java对应的词法分析规范,Hive.tokens定义了词法分析后所有的token。

然后沿着“Driver.compile()->ParseDriver.parse(command, ctx)->HiveParserX.statement()->antlr中的API”这个调用关系把输入的HiveQL转化成ASTNode类型的语法树。HiveParserX是由antlr生成的HiveParser类的子类。

(2)利用对应的SemanticAnalyzer类,将AST树转换成Map-reduce task。主要分为三个步骤:

a) AST -> operator DAG

b) optimize operator DAG

c) oprator DAG -> Map-reduce task

首先接着上一步生成的语法树ASTNode,?SemanticAnalyzerFactory会根据ASTNode的token类型生成不同的SemanticAnalyzer (所有这些SemanticAnalyzer都继承自BaseSemanticAnalyzer)

1) ExplainSemanticAnalyzer

2) LoadSemanticAnalyzer

3) ExportSemanticAnalyzer

4) DDLSemanticAnalyzer

5) FunctionSemanticAnalyzer

6) SemanticAnalyzer

然后调用BaseSemanticAnalyzer.analyze()->BaseSemanticAnalyzer. analyzeInternal()。

下面以最常见的select * from table类型的查询为例,进入的子类是SemanticAnalyzer. analyzeInternal(),这个函数的逻辑如下:

1) doPhase1():将sql语句中涉及到的各种信息存储起来,存到QB中去,留着后面用。

2) getMetaData():获取元数据信息,主要是sql中涉及到的 表 和 元数据 的关联

3) genPlan():生成operator tree/DAG

4) optimize:优化,对operator tree/DAG 进行一些优化操作,例如列剪枝等(目前只能做rule-based optimize,不能做cost-based optimize)

5) genMapRedTasks():将operator tree/DAG 通过一定的规则生成若干相互依赖的MR任务

Execute

将Compile阶段生成的task信息序列化到plan.xml,然后启动map-reduce,在configure时反序列化plan.xml

实例分析:

在hive中有这样一张表:

uid

fruit_name

count

a

apple

5

a

orange

3

a

apple

2

b

banana

1

执行如下的查询:

SELECT uid, SUM(count) FROM logs GROUP BY uid
Copier après la connexion

通过explain命令可以查看执行计划:

EXPLAIN SELECT uid, SUM(count) FROM logs GROUP BY uid;
Copier après la connexion

依照hive.g的语法规则,生成AST如下:

ABSTRACT SYNTAX TREE:
(
  TOK_QUERY
  (TOK_FROM (TOK_TABREF (TOK_TABNAME logs)))
  (
    TOK_INSERT
    (TOK_DESTINATION (TOK_DIR TOK_TMP_FILE))
    (
      TOK_SELECT
      (TOK_SELEXPR (TOK_TABLE_OR_COL uid))
      (TOK_SELEXPR (TOK_FUNCTION sum (TOK_TABLE_OR_COL count)))
    )
    (TOK_GROUPBY (TOK_TABLE_OR_COL uid))
  )
)
Copier après la connexion

生成的执行计划operator tree/DAG如下:

STAGE DEPENDENCIES:
  Stage-1 is a root stage
  Stage-0 is a root stage
STAGE PLANS:
  Stage: Stage-1
    Map Reduce
      Alias -> Map Operator Tree:
        logs
          TableScan // 扫描表
            alias: logs
            Select Operator //选择字段
              expressions:
                    expr: uid
                    type: string
                    expr: count
                    type: int
              outputColumnNames: uid, count
              Group By Operator //在map端先做一次聚合,减少shuffle数据量
                aggregations:
                      expr: sum(count) //聚合函数
                bucketGroup: false
                keys:
                      expr: uid
                      type: string
                mode: hash
                outputColumnNames: _col0, _col1
                Reduce Output Operator //输出key,value给reduce
                  key expressions:
                        expr: _col0
                        type: string
                  sort order: +
                  Map-reduce partition columns:
                        expr: _col0
                        type: string
                  tag: -1
                  value expressions:
                        expr: _col1
                        type: bigint
      Reduce Operator Tree:
        Group By Operator
          aggregations:
                expr: sum(VALUE._col0) //聚合
          bucketGroup: false
          keys:
                expr: KEY._col0
                type: string
          mode: mergepartial
          outputColumnNames: _col0, _col1
          Select Operator //选择字段
            expressions:
                  expr: _col0
                  type: string
                  expr: _col1
                  type: bigint
            outputColumnNames: _col0, _col1
            File Output Operator //输出到文件
              compressed: false
              GlobalTableId: 0
              table:
                  input format: org.apache.hadoop.mapred.TextInputFormat
                  output format: org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat
  Stage: Stage-0
    Fetch Operator
      limit: -1
Copier après la connexion

Hive优化策略:

1. 去除查询中不需要的column

2. Where条件判断等在TableScan阶段就进行过滤

3. 利用Partition信息,只读取符合条件的Partition

4. Map端join,以大表作驱动,小表载入所有mapper内存中

5. 调整Join顺序,确保以大表作为驱动表

6. 对于数据分布不均衡的表Group by时,为避免数据集中到少数的reducer上,分成两个map-reduce阶段。第一个阶段先用Distinct列进行shuffle,然后在reduce端部分聚合,减小数据规模,第二个map-reduce阶段再按group-by列聚合。

7. 在map端用hash进行部分聚合,减小reduce端数据处理规模。

参考文献:

http://fatkun.com/2013/01/hive-group-by.html

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Quelle est la différence entre HQL et SQL dans le framework Hibernate ? Quelle est la différence entre HQL et SQL dans le framework Hibernate ? Apr 17, 2024 pm 02:57 PM

HQL et SQL sont comparés dans le framework Hibernate : HQL (1. Syntaxe orientée objet, 2. Requêtes indépendantes de la base de données, 3. Sécurité des types), tandis que SQL exploite directement la base de données (1. Normes indépendantes de la base de données, 2. Exécutable complexe requêtes et manipulation de données).

Comparaison et différences de syntaxe SQL entre Oracle et DB2 Comparaison et différences de syntaxe SQL entre Oracle et DB2 Mar 11, 2024 pm 12:09 PM

Oracle et DB2 sont deux systèmes de gestion de bases de données relationnelles couramment utilisés, chacun possédant sa propre syntaxe et ses propres caractéristiques SQL. Cet article comparera et différera la syntaxe SQL d'Oracle et de DB2, et fournira des exemples de code spécifiques. Connexion à la base de données Dans Oracle, utilisez l'instruction suivante pour vous connecter à la base de données : CONNECTusername/password@database Dans DB2, l'instruction pour vous connecter à la base de données est la suivante : CONNECTTOdataba.

Comment ouvrir plusieurs comptes Toutiao ? Quelle est la démarche pour demander un compte Toutiao ? Comment ouvrir plusieurs comptes Toutiao ? Quelle est la démarche pour demander un compte Toutiao ? Mar 22, 2024 am 11:00 AM

Avec la popularité de l'Internet mobile, Toutiao est devenue l'une des plateformes d'information les plus populaires de Chine. De nombreux utilisateurs espèrent disposer de plusieurs comptes sur la plateforme Toutiao pour répondre à différents besoins. Alors, comment ouvrir plusieurs comptes Toutiao ? Cet article présentera en détail la méthode et le processus de demande d'ouverture de plusieurs comptes Toutiao. 1. Comment ouvrir plusieurs comptes Toutiao ? La méthode d'ouverture de plusieurs comptes Toutiao est la suivante : Sur la plateforme Toutiao, les utilisateurs peuvent enregistrer des comptes via différents numéros de téléphone mobile. Chaque numéro de téléphone mobile ne peut enregistrer qu'un seul compte Toutiao, ce qui signifie que les utilisateurs peuvent utiliser plusieurs numéros de téléphone mobile pour enregistrer plusieurs comptes. 2. Inscription par e-mail : utilisez différentes adresses e-mail pour enregistrer un compte Toutiao. Semblable à l'enregistrement d'un numéro de téléphone mobile, chaque adresse e-mail peut également enregistrer un compte Toutiao. 3. Connectez-vous avec un compte tiers

Analyse de la signification et de l'utilisation du point médian en PHP Analyse de la signification et de l'utilisation du point médian en PHP Mar 27, 2024 pm 08:57 PM

[Analyse de la signification et de l'utilisation du point médian PHP] En PHP, le point médian (.) est un opérateur couramment utilisé, utilisé pour connecter deux chaînes ou propriétés ou méthodes d'objets. Dans cet article, nous approfondirons la signification et l’utilisation des points médians en PHP, en les illustrant avec des exemples de code concrets. 1. Opérateur de point médian de chaîne de connexion L’utilisation la plus courante en PHP consiste à connecter deux chaînes. En plaçant . entre deux chaînes, vous pouvez les assembler pour former une nouvelle chaîne. $string1=&qu

Les ancres de sommeil Douyin sont-elles rentables ? Quelles sont les procédures spécifiques à la diffusion en direct du sommeil ? Les ancres de sommeil Douyin sont-elles rentables ? Quelles sont les procédures spécifiques à la diffusion en direct du sommeil ? Mar 21, 2024 pm 04:41 PM

Dans la société actuelle en évolution rapide, les problèmes de qualité du sommeil touchent de plus en plus de personnes. Afin d'améliorer la qualité du sommeil des utilisateurs, un groupe d'ancres de sommeil spéciales est apparu sur la plateforme Douyin. Ils interagissent avec les utilisateurs via des diffusions en direct, partagent des conseils sur le sommeil et proposent de la musique et des sons relaxants pour aider les téléspectateurs à s'endormir paisiblement. Alors, ces ancres de sommeil sont-elles rentables ? Cet article se concentrera sur cette question. 1. Les ancres de sommeil Douyin sont-elles rentables ? Les ancres de sommeil Douyin peuvent en effet gagner certains bénéfices. Premièrement, ils peuvent recevoir des cadeaux et des transferts grâce à la fonction de pourboire dans la salle de diffusion en direct, et ces avantages dépendent de leur nombre de fans et de la satisfaction du public. Deuxièmement, la plateforme Douyin attribuera au présentateur une certaine part en fonction du nombre de vues, de likes, de partages et d'autres données de la diffusion en direct. Certaines ancres de sommeil seront également

Huawei P70 démarre directement le plan Pioneer et est officiellement en vente Huawei P70 démarre directement le plan Pioneer et est officiellement en vente Apr 19, 2024 pm 01:58 PM

Zhongguancun News : Le matin du 18 avril, Huawei a soudainement annoncé que la série de téléphones mobiles P70 était officiellement en vente dans le cadre du plan Pioneer. Les amis qui souhaitent acheter devraient être prêts à agir. Selon la pratique passée, les téléphones mobiles phares de Huawei. sont très populaires et seront toujours en rupture de stock. Cette fois, la série Huawei P70 a été renommée Pura, ce qui signifie pur. Yu Chengdong de Huawei a déclaré précédemment : Depuis 2012, les smartphones de la série P de Huawei sont comme des partenaires fidèles, accompagnant des centaines de millions d'utilisateurs à travers le monde pour passer d'innombrables moments précieux et être témoins ensemble de la beauté et de l'excitation de la vie. Il a profondément ressenti que la confiance et l'amour accordés par chaque utilisateur qui choisit la série P de Huawei équivaut à une puissante force motrice, inspirant toujours Huawei à avancer fermement sur la voie de l'innovation. Pura signifie pur.

Analyse des raisons pour lesquelles le répertoire secondaire du CMS DreamWeaver ne peut pas être ouvert Analyse des raisons pour lesquelles le répertoire secondaire du CMS DreamWeaver ne peut pas être ouvert Mar 13, 2024 pm 06:24 PM

Titre : Analyse des raisons et des solutions pour lesquelles le répertoire secondaire de DreamWeaver CMS ne peut pas être ouvert. Dreamweaver CMS (DedeCMS) est un puissant système de gestion de contenu open source largement utilisé dans la construction de divers sites Web. Cependant, parfois pendant le processus de création d'un site Web, vous pouvez rencontrer une situation dans laquelle le répertoire secondaire ne peut pas être ouvert, ce qui perturbe le fonctionnement normal du site Web. Dans cet article, nous analyserons les raisons possibles pour lesquelles le répertoire secondaire ne peut pas être ouvert et fournirons des exemples de code spécifiques pour résoudre ce problème. 1. Analyse des causes possibles : Problème de configuration des règles pseudo-statiques : pendant l'utilisation

Analyse des nouvelles fonctionnalités de Win11 : Comment ignorer la connexion au compte Microsoft Analyse des nouvelles fonctionnalités de Win11 : Comment ignorer la connexion au compte Microsoft Mar 27, 2024 pm 05:24 PM

Analyse des nouvelles fonctionnalités de Win11 : Comment ignorer la connexion à un compte Microsoft Avec la sortie de Windows 11, de nombreux utilisateurs ont constaté qu'il apportait plus de commodité et de nouvelles fonctionnalités. Cependant, certains utilisateurs n'aiment pas que leur système soit lié à un compte Microsoft et souhaitent ignorer cette étape. Cet article présentera quelques méthodes pour aider les utilisateurs à ne pas se connecter à un compte Microsoft dans Windows 11 afin d'obtenir une expérience plus privée et autonome. Tout d’abord, comprenons pourquoi certains utilisateurs hésitent à se connecter à leur compte Microsoft. D'une part, certains utilisateurs craignent

See all articles