Sqoop1.4.4 实现将 Oracle10g 中的增量数据导入 Hive0.13.1 ，并更新Hive中的主表-mysql教程-PHP中文网

首页

数据库

mysql教程

Sqoop1.4.4 实现将 Oracle10g 中的增量数据导入 Hive0.13.1 ，并更新Hive中的主表

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 07, 2016 pm 04:44 PM

将Oracle中的业务基础表增量数据导入Hive中，与当前的全量表合并为最新的全量表。通过Sqoop将Oracle中表的导入Hive，模拟全量表和

需求

将Oracle中的业务基础表增量数据导入Hive中，与当前的全量表合并为最新的全量表。

设计

涉及的三张表：

步骤：

通过Sqoop将Oracle中的表导入Hive，模拟全量表和增量表

通过Hive将“全量表增量表”合并为“更新后的全量表”，覆盖当前的全量表

步骤1：通过Sqoop将Oracle中表的导入Hive，模拟全量表和增量表

为了模拟场景，需要一张全量表，和一张增量表，由于数据源有限，所以两个表都来自Oracle中的OMP_SERVICE，全量表包含所有数据，，在Hive中名称叫service_all，增量表包含部分时间段数据，在Hive中名称叫service_tmp。

（1）全量表导入：导出所有数据，只要部分字段，导入到Hive指定表里

为实现导入Hive功能，需要先配置HCatalog（HCatalog是Hive子模块）的环境变量，/etc/profile中新增：

export HCAT_HOME=/home/fulong/Hive/apache-hive-0.13.1-bin/hcatalog

执行以下命令导入数据：

fulong@FBI006:~/Sqoop/sqoop-1.4.4/bin$ ./sqoop import

> --connect jdbc:oracle:thin:@192.168.0.147:1521:ORCLGBK --username SP --password fulong

> --table OMP_SERVICE

> --columns "SERVICE_CODE,SERVICE_NAME,SERVICE_PROCESS,CREATE_TIME,ENABLE_ORG,ENABLE_PLATFORM,IF_DEL"

> --hive-import --hive-table SERVICE_ALL

注意：用户名必须大写

（2）增量表导入：只导出所需时间范围内的数据，只要部分字段，导入到Hive指定表里

使用以下命令导入数据：

fulong@FBI006:~/Sqoop/sqoop-1.4.4/bin$ ./sqoop import

> --connect jdbc:oracle:thin:@192.168.0.147:1521:ORCLGBK --username SP --password fulong

> --table OMP_SERVICE

> --columns "SERVICE_CODE,SERVICE_NAME,SERVICE_PROCESS,CREATE_TIME,ENABLE_ORG,ENABLE_PLATFORM,IF_DEL"

> --where "CREATE_TIME > to_date('2012/12/4 17:00:00','yyyy-mm-dd hh24:mi:ss') and CREATE_TIME < to_date('2012/12/4 18:00:00','yyyy-mm-dd hh24:mi:ss')"

> --hive-import --hive-overwrite --hive-table SERVICE_TMP

注意：

由于使用了--hive-overwrite参数，所以该语句可反复执行，往service_tmp表中覆盖插入最新的增量数据；

Sqoop还支持使用复杂Sql语句查询数据导入，相亲参见的“7.2.3.Free-form Query Imports”章节

（3）验证导入结果：列出所有表，统计行数，查看表结构

hive> show tables;

searchlog

searchlog_tmp

service_all

service_tmp

Time taken: 0.04 seconds, Fetched: 4 row(s)

hive> select count(*) from service_all;

Total jobs = 1

Launching Job 1 out of 1

Number of reduce tasks determined at compile time: 1

In order to change the average load for a reducer (in bytes):

set hive.exec.reducers.bytes.per.reducer=

In order to limit the maximum number of reducers:

set hive.exec.reducers.max=

In order to set a constant number of reducers:

set mapreduce.job.reduces=

Starting Job = job_1407233914535_0013, Tracking URL = :8088/proxy/application_1407233914535_0013/

Kill Command = /home/fulong/Hadoop/hadoop-2.2.0/bin/hadoop job -kill job_1407233914535_0013

Hadoop job information for Stage-1: number of mappers: 3; number of reducers: 1

2014-08-21 16:51:47,389 Stage-1 map = 0%, reduce = 0%

2014-08-21 16:51:59,816 Stage-1 map = 33%, reduce = 0%, Cumulative CPU 1.36 sec

2014-08-21 16:52:01,996 Stage-1 map = 67%, reduce = 0%, Cumulative CPU 2.45 sec

2014-08-21 16:52:07,877 Stage-1 map = 100%, reduce = 0%, Cumulative CPU 3.96 sec

2014-08-21 16:52:17,639 Stage-1 map = 100%, reduce = 100%, Cumulative CPU 5.29 sec

MapReduce Total cumulative CPU time: 5 seconds 290 msec

已结束作业 = job_1407233914535_0013

MapReduce 作业启动：

作业 0：映射：3 减少：1 累计 CPU：5.46 秒 HDFS 读取：687141 HDFS 写入：5 成功

MapReduce CPU 总花费时间：5 秒 460 毫秒

好的

6803

耗时：59.386 秒，已获取：1 行

蜂巢> 从service_tmp中选择count(*)；

总职位 = 1

启动工作 1 中的 1

编译时确定的reduce任务数量：1

为了更改减速器的平均负载（以字节为单位）：

设置 hive.exec.reducers.bytes.per.reducer=

为了限制reducer的最大数量：

设置 hive.exec.reducers.max=

为了设置恒定数量的减速器：

设置mapreduce.job.reduces=

开始作业 = job_1407233914535_0014，跟踪 URL = :8088/proxy/application_1407233914535_0014/

Kill Command = /home/fulong/Hadoop/hadoop-2.2.0/bin/hadoop job -kill job_1407233914535_0014

Stage-1的Hadoop作业信息：映射器数量：3；减速机数量：1

2014-08-21 16:53:03,951 第一阶段地图 = 0%，减少 = 0%

2014-08-21 16:53:15,189 Stage-1 地图 = 67%，减少 = 0%，累积 CPU 2.17 秒

2014-08-21 16:53:16,236 Stage-1 地图 = 100%，减少 = 0%，累积 CPU 3.38 秒

2014-08-21 16:53:57,935 Stage-1 地图 = 100%，减少 = 22%，累计 CPU 3.78 秒

2014-08-21 16:54:01,811 Stage-1 地图 = 100%，减少 = 100%，累积 CPU 5.34 秒

MapReduce 总累积 CPU 时间：5 秒 340 毫秒

已结束作业 = job_1407233914535_0014

MapReduce 作业启动：

作业 0：映射：3 减少：1 累计 CPU：5.66 秒 HDFS 读取：4720 HDFS 写入：3 次成功

MapReduce CPU 总花费时间：5 秒 660 毫秒

好的

耗时：75.856 秒，已获取：1 行

蜂巢> 描述 service_all;

好的

service_code 字符串

service_name 字符串

service_process 字符串

create_time 字符串

enable_org 字符串

enable_platform 字符串

if_del 字符串

耗时：0.169 秒，已获取：7 行

蜂巢> 描述service_tmp;

好的

service_code 字符串

service_name 字符串

service_process 字符串

create_time 字符串

enable_org 字符串

enable_platform 字符串

if_del 字符串

耗时：0.117 秒，获取：7 行

合并新表的逻辑如下：

整个tmp表进入最终表中

所有表的数据中不包含在tmp表service_code范围内的数据全部进入新表

执行以下sql语句可以获取更新后的全量表：

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

AI Hentai Generator

免费生成ai无尽的。

显示更多

热工具

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

gmail邮箱登陆入口在哪里

7477

CakePHP 教程

1377

steam的账户名称是什么格式

win11激活密钥永久

NYT连接提示和答案

显示更多

Related knowledge

如何使用Alter Table语句在MySQL中更改表？ Mar 19, 2025 pm 03:51 PM

本文讨论了使用MySQL的Alter Table语句修改表，包括添加/删除列，重命名表/列以及更改列数据类型。

如何为MySQL连接配置SSL/TLS加密？ Mar 18, 2025 pm 12:01 PM

文章讨论了为MySQL配置SSL/TLS加密，包括证书生成和验证。主要问题是使用自签名证书的安全含义。[角色计数：159]

说明InnoDB全文搜索功能。 Apr 02, 2025 pm 06:09 PM

InnoDB的全文搜索功能非常强大，能够显着提高数据库查询效率和处理大量文本数据的能力。 1）InnoDB通过倒排索引实现全文搜索，支持基本和高级搜索查询。 2）使用MATCH和AGAINST关键字进行搜索，支持布尔模式和短语搜索。 3）优化方法包括使用分词技术、定期重建索引和调整缓存大小，以提升性能和准确性。