Heim > Datenbank > MySQL-Tutorial > Hauptteil

用Sqoop导入数据到Hive中

WBOY
Freigeben: 2016-06-07 17:12:07
Original
1326 Leute haben es durchsucht

用Sqoop导入数据到Hive中,从postgresql中导入大表到hive中会出现jvm内存溢出的错误,这是sqoop1.2及以前版本的一个bug,它把整个

1 安装sqoop

下载sqoop-1.2.0.tar.gz(1.20版兼容Hadoop0.20版本)

将 hadoop-core-0.20.2-cdh3u3.jar ,hadoop-tools-0.20.2-cdh3u3.jar 放入sqoop/lib目录下,这两个jar包是cloudera公司出的 ,可以去它的官网下载。

2 从mysql中导入数据

进入sqoop解压目录(需要将mysql-connector-java-5.1.17-bin.jar加入到sqoop/lib目录下)

bin/sqoop import --connect jdbc:mysql://IP:PORT/DATABASE --username USERNAME --password PASSWORD --table TABLENAME --hive-import -m 1

备注: -m 1 是启动多少个线程的意思,如果数据库没有主键 只能启动一个线程。

3 从postgresql中导入数据

bin/sqoop import --connect jdbc:postgresql://IP:PORT/DATABASE --username USERNAME --password PASSWORD --table TABLENAME --hive-import -m 1

4常见问题:

1 从postgresql中导入大表到hive中会出现jvm内存溢出的错误,这是sqoop1.2及以前版本的一个bug,它把整个数据表记录读入内存,导致内存溢出,解决办法是换sqoop1.3及以上版本,这个bug在1.3被修复,但是sqoop1.3 必须依赖chd3的hadoop版本,如果以前装的的纯hadoop版本的话只能换成chd3的版本。

2 在使用sqoop1.3版本,把hadoop换成cdh3之后,出现了一个奇怪为题:classNotFoundException:sqoop org.apache.hadoop.security.UserGroupInformation.login(xxx) ,这个问题是由于CDH3的hadoop版本引起的,在他的hadoop-core-0.20.2-cdh3u3.jar包中的UserGroupInformation 类确实没有login方法,,为此我又把hadoop恢复到apache 的hadoop0.20.2这个版本,然后下载了个sqoop1.4版本,居然sqoop1.4可以支持apache的hadoop,早知道这样完全不用安装CDH的hadoop版本了(这个问题困扰了我好久)

linux

Verwandte Etiketten:
Quelle:php.cn
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage
Über uns Haftungsausschluss Sitemap
Chinesische PHP-Website:Online-PHP-Schulung für das Gemeinwohl,Helfen Sie PHP-Lernenden, sich schnell weiterzuentwickeln!