用Sqoop导入数据到Hive中

WBOY
풀어 주다: 2016-06-07 17:12:07
원래의
1326명이 탐색했습니다.

用Sqoop导入数据到Hive中,从postgresql中导入大表到hive中会出现jvm内存溢出的错误,这是sqoop1.2及以前版本的一个bug,它把整个

1 安装sqoop

下载sqoop-1.2.0.tar.gz(1.20版兼容Hadoop0.20版本)

将 hadoop-core-0.20.2-cdh3u3.jar ,hadoop-tools-0.20.2-cdh3u3.jar 放入sqoop/lib目录下,这两个jar包是cloudera公司出的 ,可以去它的官网下载。

2 从mysql中导入数据

进入sqoop解压目录(需要将mysql-connector-java-5.1.17-bin.jar加入到sqoop/lib目录下)

bin/sqoop import --connect jdbc:mysql://IP:PORT/DATABASE --username USERNAME --password PASSWORD --table TABLENAME --hive-import -m 1

备注: -m 1 是启动多少个线程的意思,如果数据库没有主键 只能启动一个线程。

3 从postgresql中导入数据

bin/sqoop import --connect jdbc:postgresql://IP:PORT/DATABASE --username USERNAME --password PASSWORD --table TABLENAME --hive-import -m 1

4常见问题:

1 从postgresql中导入大表到hive中会出现jvm内存溢出的错误,这是sqoop1.2及以前版本的一个bug,它把整个数据表记录读入内存,导致内存溢出,解决办法是换sqoop1.3及以上版本,这个bug在1.3被修复,但是sqoop1.3 必须依赖chd3的hadoop版本,如果以前装的的纯hadoop版本的话只能换成chd3的版本。

2 在使用sqoop1.3版本,把hadoop换成cdh3之后,出现了一个奇怪为题:classNotFoundException:sqoop org.apache.hadoop.security.UserGroupInformation.login(xxx) ,这个问题是由于CDH3的hadoop版本引起的,在他的hadoop-core-0.20.2-cdh3u3.jar包中的UserGroupInformation 类确实没有login方法,,为此我又把hadoop恢复到apache 的hadoop0.20.2这个版本,然后下载了个sqoop1.4版本,居然sqoop1.4可以支持apache的hadoop,早知道这样完全不用安装CDH的hadoop版本了(这个问题困扰了我好久)

linux

관련 라벨:
원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿
회사 소개 부인 성명 Sitemap
PHP 중국어 웹사이트:공공복지 온라인 PHP 교육,PHP 학습자의 빠른 성장을 도와주세요!