首页 数据库 mysql教程 Sqoop1.4.4 实现将 Oracle10g 中的增量数据导入 Hive0.13.1 ,并更新Hive中的主表

Sqoop1.4.4 实现将 Oracle10g 中的增量数据导入 Hive0.13.1 ,并更新Hive中的主表

Jun 07, 2016 pm 04:44 PM

将Oracle中的业务基础表增量数据导入Hive中,与当前的全量表合并为最新的全量表。通过Sqoop将Oracle中表的导入Hive,模拟全量表和

需求

将Oracle中的业务基础表增量数据导入Hive中,与当前的全量表合并为最新的全量表。

设计

涉及的三张表:

 

步骤:

  • 通过Sqoop将Oracle中的表导入Hive,模拟全量表和增量表
  • 通过Hive将“全量表 增量表”合并为“更新后的全量表”,覆盖当前的全量表
  • 步骤1:通过Sqoop将Oracle中表的导入Hive,模拟全量表和增量表

    为了模拟场景,需要一张全量表,和一张增量表,由于数据源有限,所以两个表都来自Oracle中的OMP_SERVICE,全量表包含所有数据,,在Hive中名称叫service_all,增量表包含部分时间段数据,在Hive中名称叫service_tmp。

    (1)全量表导入:导出所有数据,只要部分字段,导入到Hive指定表里

    为实现导入Hive功能,需要先配置HCatalog(HCatalog是Hive子模块)的环境变量,/etc/profile中新增:

    export HCAT_HOME=/home/fulong/Hive/apache-hive-0.13.1-bin/hcatalog

     

    执行以下命令导入数据:

    fulong@FBI006:~/Sqoop/sqoop-1.4.4/bin$ ./sqoop import

    > --connect jdbc:oracle:thin:@192.168.0.147:1521:ORCLGBK  --username SP --password fulong

    > --table OMP_SERVICE

    > --columns "SERVICE_CODE,SERVICE_NAME,SERVICE_PROCESS,CREATE_TIME,ENABLE_ORG,ENABLE_PLATFORM,IF_DEL"

    > --hive-import --hive-table SERVICE_ALL

     

    注意:用户名必须大写

     

    (2)增量表导入:只导出所需时间范围内的数据,只要部分字段,导入到Hive指定表里

    使用以下命令导入数据:

    fulong@FBI006:~/Sqoop/sqoop-1.4.4/bin$ ./sqoop import

    > --connect jdbc:oracle:thin:@192.168.0.147:1521:ORCLGBK  --username SP --password fulong

    > --table OMP_SERVICE

    > --columns "SERVICE_CODE,SERVICE_NAME,SERVICE_PROCESS,CREATE_TIME,ENABLE_ORG,ENABLE_PLATFORM,IF_DEL"

    > --where "CREATE_TIME > to_date('2012/12/4 17:00:00','yyyy-mm-dd hh24:mi:ss') and CREATE_TIME < to_date('2012/12/4 18:00:00','yyyy-mm-dd hh24:mi:ss')"

    > --hive-import --hive-overwrite --hive-table SERVICE_TMP

     

    注意:

  • 由于使用了--hive-overwrite参数,所以该语句可反复执行,往service_tmp表中覆盖插入最新的增量数据;
  • Sqoop还支持使用复杂Sql语句查询数据导入,相亲参见的“7.2.3.Free-form Query Imports”章节
  • (3)验证导入结果:列出所有表,统计行数,查看表结构

    hive> show tables;

    OK

    searchlog

    searchlog_tmp

    service_all

    service_tmp

    Time taken: 0.04 seconds, Fetched: 4 row(s)

    hive> select count(*) from service_all;

    Total jobs = 1

    Launching Job 1 out of 1

    Number of reduce tasks determined at compile time: 1

    In order to change the average load for a reducer (in bytes):

      set hive.exec.reducers.bytes.per.reducer=

    In order to limit the maximum number of reducers:

      set hive.exec.reducers.max=

    In order to set a constant number of reducers:

      set mapreduce.job.reduces=

    Starting Job = job_1407233914535_0013, Tracking URL = :8088/proxy/application_1407233914535_0013/

    Kill Command = /home/fulong/Hadoop/hadoop-2.2.0/bin/hadoop job  -kill job_1407233914535_0013

    Hadoop job information for Stage-1: number of mappers: 3; number of reducers: 1

    2014-08-21 16:51:47,389 Stage-1 map = 0%,  reduce = 0%

    2014-08-21 16:51:59,816 Stage-1 map = 33%,  reduce = 0%, Cumulative CPU 1.36 sec

    2014-08-21 16:52:01,996 Stage-1 map = 67%,  reduce = 0%, Cumulative CPU 2.45 sec

    2014-08-21 16:52:07,877 Stage-1 map = 100%,  reduce = 0%, Cumulative CPU 3.96 sec

    2014-08-21 16:52:17,639 Stage-1 map = 100%,  reduce = 100%, Cumulative CPU 5.29 sec

    MapReduce Total cumulative CPU time: 5 seconds 290 msec

    已结束作业 = job_1407233914535_0013

    MapReduce 作业启动:

    作业 0:映射:3 减少:1 累计 CPU:5.46 秒 HDFS 读取:687141 HDFS 写入:5 成功

    MapReduce CPU 总花费时间:5 秒 460 毫秒

    好的

    6803

    耗时:59.386 秒,已获取:1 行

    蜂巢> 从service_tmp中选择count(*);

    总职位 = 1

    启动工作 1 中的 1

    编译时确定的reduce任务数量:1

    为了更改减速器的平均负载(以字节为单位):

      设置 hive.exec.reducers.bytes.per.reducer=

    为了限制reducer的最大数量:

      设置 hive.exec.reducers.max=

    为了设置恒定数量的减速器:

     设置mapreduce.job.reduces=

    开始作业 = job_1407233914535_0014,跟踪 URL = :8088/proxy/application_1407233914535_0014/

    Kill Command = /home/fulong/Hadoop/hadoop-2.2.0/bin/hadoop job -kill job_1407233914535_0014

    Stage-1的Hadoop作业信息:映射器数量:3;减速机数量:1

    2014-08-21 16:53:03,951 第一阶段地图 = 0%,减少 = 0%

    2014-08-21 16:53:15,189 Stage-1 地图 = 67%,减少 = 0%,累积 CPU 2.17 秒

    2014-08-21 16:53:16,236 Stage-1 地图 = 100%,减少 = 0%,累积 CPU 3.38 秒

    2014-08-21 16:53:57,935 Stage-1 地图 = 100%,减少 = 22%,累计 CPU 3.78 秒

    2014-08-21 16:54:01,811 Stage-1 地图 = 100%,减少 = 100%,累积 CPU 5.34 秒

    MapReduce 总累积 CPU 时间:5 秒 340 毫秒

    已结束作业 = job_1407233914535_0014

    MapReduce 作业启动:

    作业 0:映射:3 减少:1 累计 CPU:5.66 秒 HDFS 读取:4720 HDFS 写入:3 次成功

    MapReduce CPU 总花费时间:5 秒 660 毫秒

    好的

    13

    耗时:75.856 秒,已获取:1 行

    蜂巢> 描述 service_all;

    好的

    service_code            字符串

    service_name            字符串

    service_process         字符串

    create_time             字符串

    enable_org              字符串

    enable_platform         字符串

    if_del                  字符串

    耗时:0.169 秒,已获取:7 行

    蜂巢> 描述service_tmp;

    好的

    service_code            字符串

    service_name            字符串

    service_process         字符串

    create_time             字符串

    enable_org              字符串

    enable_platform         字符串

    if_del                  字符串

    耗时:0.117 秒,获取:7 行

    合并新表的逻辑如下:

  • 整个tmp表进入最终表中
  • 所有表的数据中不包含在tmp表service_code范围内的数据全部进入新表
  • 执行以下sql语句可以获取更新后的全量表:

    本站声明
    本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

    热AI工具

    Undresser.AI Undress

    Undresser.AI Undress

    人工智能驱动的应用程序,用于创建逼真的裸体照片

    AI Clothes Remover

    AI Clothes Remover

    用于从照片中去除衣服的在线人工智能工具。

    Undress AI Tool

    Undress AI Tool

    免费脱衣服图片

    Clothoff.io

    Clothoff.io

    AI脱衣机

    AI Hentai Generator

    AI Hentai Generator

    免费生成ai无尽的。

    热门文章

    R.E.P.O.能量晶体解释及其做什么(黄色晶体)
    3 周前 By 尊渡假赌尊渡假赌尊渡假赌
    R.E.P.O.最佳图形设置
    3 周前 By 尊渡假赌尊渡假赌尊渡假赌
    R.E.P.O.如果您听不到任何人,如何修复音频
    3 周前 By 尊渡假赌尊渡假赌尊渡假赌
    WWE 2K25:如何解锁Myrise中的所有内容
    4 周前 By 尊渡假赌尊渡假赌尊渡假赌

    热工具

    记事本++7.3.1

    记事本++7.3.1

    好用且免费的代码编辑器

    SublimeText3汉化版

    SublimeText3汉化版

    中文版,非常好用

    禅工作室 13.0.1

    禅工作室 13.0.1

    功能强大的PHP集成开发环境

    Dreamweaver CS6

    Dreamweaver CS6

    视觉化网页开发工具

    SublimeText3 Mac版

    SublimeText3 Mac版

    神级代码编辑软件(SublimeText3)

    如何使用Alter Table语句在MySQL中更改表? 如何使用Alter Table语句在MySQL中更改表? Mar 19, 2025 pm 03:51 PM

    本文讨论了使用MySQL的Alter Table语句修改表,包括添加/删除列,重命名表/列以及更改列数据类型。

    如何为MySQL连接配置SSL/TLS加密? 如何为MySQL连接配置SSL/TLS加密? Mar 18, 2025 pm 12:01 PM

    文章讨论了为MySQL配置SSL/TLS加密,包括证书生成和验证。主要问题是使用自签名证书的安全含义。[角色计数:159]

    说明InnoDB全文搜索功能。 说明InnoDB全文搜索功能。 Apr 02, 2025 pm 06:09 PM

    InnoDB的全文搜索功能非常强大,能够显着提高数据库查询效率和处理大量文本数据的能力。 1)InnoDB通过倒排索引实现全文搜索,支持基本和高级搜索查询。 2)使用MATCH和AGAINST关键字进行搜索,支持布尔模式和短语搜索。 3)优化方法包括使用分词技术、定期重建索引和调整缓存大小,以提升性能和准确性。

    哪些流行的MySQL GUI工具(例如MySQL Workbench,PhpMyAdmin)是什么? 哪些流行的MySQL GUI工具(例如MySQL Workbench,PhpMyAdmin)是什么? Mar 21, 2025 pm 06:28 PM

    文章讨论了流行的MySQL GUI工具,例如MySQL Workbench和PhpMyAdmin,比较了它们对初学者和高级用户的功能和适合性。[159个字符]

    您如何处理MySQL中的大型数据集? 您如何处理MySQL中的大型数据集? Mar 21, 2025 pm 12:15 PM

    文章讨论了处理MySQL中大型数据集的策略,包括分区,碎片,索引和查询优化。

    如何使用Drop Table语句将表放入MySQL中? 如何使用Drop Table语句将表放入MySQL中? Mar 19, 2025 pm 03:52 PM

    本文讨论了使用Drop Table语句在MySQL中放下表,并强调了预防措施和风险。它强调,没有备份,该动作是不可逆转的,详细介绍了恢复方法和潜在的生产环境危害。

    您如何用外国钥匙代表关系? 您如何用外国钥匙代表关系? Mar 19, 2025 pm 03:48 PM

    文章讨论了使用外国密钥来代表数据库中的关系,重点是最佳实践,数据完整性和避免的常见陷阱。

    如何在JSON列上创建索引? 如何在JSON列上创建索引? Mar 21, 2025 pm 12:13 PM

    本文讨论了在PostgreSQL,MySQL和MongoDB等各个数据库中的JSON列上创建索引,以增强查询性能。它解释了索引特定的JSON路径的语法和好处,并列出了支持的数据库系统。

    See all articles