将Oracle中的业务基础表增量数据导入Hive中,与当前的全量表合并为最新的全量表。通过Sqoop将Oracle中表的导入Hive,模拟全量表和
需求
将Oracle中的业务基础表增量数据导入Hive中,与当前的全量表合并为最新的全量表。
设计
涉及的三张表:
步骤:
步骤1:通过Sqoop将Oracle中表的导入Hive,模拟全量表和增量表
为了模拟场景,需要一张全量表,和一张增量表,由于数据源有限,所以两个表都来自Oracle中的OMP_SERVICE,全量表包含所有数据,,在Hive中名称叫service_all,增量表包含部分时间段数据,在Hive中名称叫service_tmp。
(1)全量表导入:导出所有数据,只要部分字段,导入到Hive指定表里
为实现导入Hive功能,需要先配置HCatalog(HCatalog是Hive子模块)的环境变量,/etc/profile中新增:
export HCAT_HOME=/home/fulong/Hive/apache-hive-0.13.1-bin/hcatalog
执行以下命令导入数据:
fulong@FBI006:~/Sqoop/sqoop-1.4.4/bin$ ./sqoop import
> --connect jdbc:oracle:thin:@192.168.0.147:1521:ORCLGBK --username SP --password fulong
> --table OMP_SERVICE
> --columns "SERVICE_CODE,SERVICE_NAME,SERVICE_PROCESS,CREATE_TIME,ENABLE_ORG,ENABLE_PLATFORM,IF_DEL"
> --hive-import --hive-table SERVICE_ALL
注意:用户名必须大写
(2)增量表导入:只导出所需时间范围内的数据,只要部分字段,导入到Hive指定表里
使用以下命令导入数据:
fulong@FBI006:~/Sqoop/sqoop-1.4.4/bin$ ./sqoop import
> --connect jdbc:oracle:thin:@192.168.0.147:1521:ORCLGBK --username SP --password fulong
> --table OMP_SERVICE
> --columns "SERVICE_CODE,SERVICE_NAME,SERVICE_PROCESS,CREATE_TIME,ENABLE_ORG,ENABLE_PLATFORM,IF_DEL"
> --where "CREATE_TIME > to_date('2012/12/4 17:00:00','yyyy-mm-dd hh24:mi:ss') and CREATE_TIME < to_date('2012/12/4 18:00:00','yyyy-mm-dd hh24:mi:ss')"
> --hive-import --hive-overwrite --hive-table SERVICE_TMP
注意:
(3)验证导入结果:列出所有表,统计行数,查看表结构
hive> show tables;
OK
searchlog
searchlog_tmp
service_all
service_tmp
Time taken: 0.04 seconds, Fetched: 4 row(s)
hive> select count(*) from service_all;
Total jobs = 1
Launching Job 1 out of 1
Number of reduce tasks determined at compile time: 1
In order to change the average load for a reducer (in bytes):
set hive.exec.reducers.bytes.per.reducer=
In order to limit the maximum number of reducers:
set hive.exec.reducers.max=
In order to set a constant number of reducers:
set mapreduce.job.reduces=
Starting Job = job_1407233914535_0013, Tracking URL = :8088/proxy/application_1407233914535_0013/
Kill Command = /home/fulong/Hadoop/hadoop-2.2.0/bin/hadoop job -kill job_1407233914535_0013
Hadoop job information for Stage-1: number of mappers: 3; number of reducers: 1
2014-08-21 16:51:47,389 Stage-1 map = 0%, reduce = 0%
2014-08-21 16:51:59,816 Stage-1 map = 33%, reduce = 0%, Cumulative CPU 1.36 sec
2014-08-21 16:52:01,996 Stage-1 map = 67%, reduce = 0%, Cumulative CPU 2.45 sec
2014-08-21 16:52:07,877 Stage-1 map = 100%, reduce = 0%, Cumulative CPU 3.96 sec
2014-08-21 16:52:17,639 Stage-1 map = 100%, reduce = 100%, Cumulative CPU 5.29 sec
MapReduce Total cumulative CPU time: 5 seconds 290 msec
已结束作业 = job_1407233914535_0013
MapReduce 作业启动:
作业 0:映射:3 减少:1 累计 CPU:5.46 秒 HDFS 读取:687141 HDFS 写入:5 成功
MapReduce CPU 总花费时间:5 秒 460 毫秒
好的
6803
耗时:59.386 秒,已获取:1 行
蜂巢> 从service_tmp中选择count(*);
总职位 = 1
启动工作 1 中的 1
编译时确定的reduce任务数量:1
为了更改减速器的平均负载(以字节为单位):
设置 hive.exec.reducers.bytes.per.reducer=
为了限制reducer的最大数量:
设置 hive.exec.reducers.max=
为了设置恒定数量的减速器:
设置mapreduce.job.reduces=
开始作业 = job_1407233914535_0014,跟踪 URL = :8088/proxy/application_1407233914535_0014/
Kill Command = /home/fulong/Hadoop/hadoop-2.2.0/bin/hadoop job -kill job_1407233914535_0014
Stage-1的Hadoop作业信息:映射器数量:3;减速机数量:1
2014-08-21 16:53:03,951 第一阶段地图 = 0%,减少 = 0%
2014-08-21 16:53:15,189 Stage-1 地图 = 67%,减少 = 0%,累积 CPU 2.17 秒
2014-08-21 16:53:16,236 Stage-1 地图 = 100%,减少 = 0%,累积 CPU 3.38 秒
2014-08-21 16:53:57,935 Stage-1 地图 = 100%,减少 = 22%,累计 CPU 3.78 秒
2014-08-21 16:54:01,811 Stage-1 地图 = 100%,减少 = 100%,累积 CPU 5.34 秒
MapReduce 总累积 CPU 时间:5 秒 340 毫秒
已结束作业 = job_1407233914535_0014
MapReduce 作业启动:
作业 0:映射:3 减少:1 累计 CPU:5.66 秒 HDFS 读取:4720 HDFS 写入:3 次成功
MapReduce CPU 总花费时间:5 秒 660 毫秒
好的
13
耗时:75.856 秒,已获取:1 行
蜂巢> 描述 service_all;
好的
service_code 字符串
service_name 字符串
service_process 字符串
create_time 字符串
enable_org 字符串
enable_platform 字符串
if_del 字符串
耗时:0.169 秒,已获取:7 行
蜂巢> 描述service_tmp;
好的
service_code 字符串
service_name 字符串
service_process 字符串
create_time 字符串
enable_org 字符串
enable_platform 字符串
if_del 字符串
耗时:0.117 秒,获取:7 行
合并新表的逻辑如下:
执行以下sql语句可以获取更新后的全量表: