目录
安装Hive
安装前提
安装
Hive交互环境( Shell)
简单示例
首页 数据库 mysql教程 Hive安装简介

Hive安装简介

Jun 07, 2016 pm 03:28 PM
hadoop hive 基于 安装 数据 简介

Hive是基于Hadoop的数据仓库平台。 Hive提供了类SQL查询语言。Hive的数据存储于HDFS中。一般情况下,用户提交的查询将被Hive转换为MapReduce作业并提交给Hadoop运行。 我们从Hive的安装开始,逐步学习Hive的方方面面。 安装Hive 安装前提 l Java 6 l Hadoop

Hive是基于Hadoop的数据仓库平台。

Hive提供了类SQL查询语言。Hive的数据存储于HDFS中。一般情况下,用户提交的查询将被Hive转换为MapReduce作业并提交给Hadoop运行。

我们从Hive的安装开始,逐步学习Hive的方方面面。

安装Hive

安装前提

l Java 6

l Hadoop

选择哪一个版本请参照Hive官方文档。安装Have是不需要特别设置关于Hadoop的信息,只要保证HADOOP_HOME环境变量正确设置就可以了。

安装

我们选择下载0.11.1稳定版本。下载地址:

http://mirrors.hust.edu.cn/apache/hive/stable/

1) 解压安装包到指定的目录:

tar xzf hive-0.11.0.tar.gz

2) 设置环境变量

export HIVE_INSTALL=/opt/Hive-0.11.0

export PATH=$PATH:$HIVE_INSTALL/bin

3)输入以下命令进入Shell

Hive

Hive交互环境( Shell)

Shell是我们和Hive交互的主要工具。

Hive的查询语言我们称为HiveQL。HiveQL的设计受到了MySQL的很多影响,所以如果你熟悉MySQL的话,你会发现使用HiveQL是同样的方便。

进入Shell后,输入以下命令看看Hive是否工作正常:

SHOW TABLES;

输出结果为

OK

Time taken: 8.207seconds

如果输出结果显示有错误,可能是Hadoop没有运行,或者HADOOP_HOME变量没有真确设置。

和SQL一样,HiveQL一般是大小写无关的(字符串比较除外)。

输入命令是按Tab键,Hive将提示所有可用的输入。(命令自动完成)

第一次使用该命令可能会花上好几秒中甚至更长,因为Hive将创建metastore数据库(存储于metastore_db目录,此目录在你运行hive时所在目录之下,所以第一次运行Hive时,请先进入到合适的目录下)。

我们也可以直接从命令行运行hive脚本,比如:

hive –f /home/user/ hive.q

其中,-f 后面跟上脚本文件名(包括路径)。

无论是在交互模式还是非交互模式下,hive一般都会输出一些辅助信息,比如执行命令的时间等。如果你不需要输出这些消息,可以在进入hive时加上-s选项,比如:

hive –S

注意:S为大写

简单示例

我们以以下数据作为测试数据,结构为(班级号,学号,成绩)。

C01,N0101,82

C01,N0102,59

C01,N0103,65

C02,N0201,81

C02,N0202,82

C02,N0203,79

C03,N0301,56

C03,N0302,92

C03,N0306,72

执行以下命令:

create table student(classNostring, stuNo string, score int) row format delimited fields terminated by ',';

其中,定义表结构和SQL类似.。其它设置表示字段间以逗号分隔,一行为一个记录。

load data local inpath '/home/user/input/student.txt'overwrite into table student;

输出结果如下:

Copying data fromfile:/home/user/input/student.txt

Copying file:file:/home/user/input/student.txt

Loading data to tabledefault.student

rmr: DEPRECATED: Please use 'rm-r' instead.

Deleted/user/hive/warehouse/student

Table default.student stats:[num_partitions: 0, num_files: 1, num_rows: 0, total_size: 117, raw_data_size:0]

这个命令将student.txt文件内容加载到表student中。这个加载操作将直接把student.txt文件复制到hive的warehouse目录中,这个目录由hive.metastore.warehouse.dir配置项设置,默认值为/user/hive/warehouse。Overwrite选项将导致Hive事先删除student目录下所有的文件。

Hive不会对student.txt做任何格式处理,因为Hive本身并不强调数据的存储格式。

此例中,Hive将数据存储于HDFS系统中。当然,Hive也可以将数据存储于本地。

如果不加overwrite选项,且加载的文件在Hive中已经存在,则Hive会为文件重新命名。比如不加overwrite选项将以上命令执行两次,则第二次加载后,hive中新产生的文件名将会是“student_copy_1.txt”。(和Hadoop权威教程中描述的不一致,读者请慎重验证)

接下来,我们执行以下命令:

select * from student;

输出如下:

C01 N0101 82

C01 N0102 59

C01 N0103 65

C02 N0201 81

C02 N0202 82

C02 N0203 79

C03 N0301 56

C03 N0302 92

C03 N0306 72

执行以下命令:

Select classNo,count(score) fromstudent where score>=60 group by classNo;

输出如下:

C01 2

C02 3

C03 2

由此看见,HiveQL的使用和SQL及其类似。我们用到了group和count,其实在后台Hive将这些操作都转换成了MapReduce操作提交给Hadoop执行,并最终输出结果。

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

开源!超越ZoeDepth! DepthFM:快速且精确的单目深度估计! 开源!超越ZoeDepth! DepthFM:快速且精确的单目深度估计! Apr 03, 2024 pm 12:04 PM

0.这篇文章干了啥?提出了DepthFM:一个多功能且快速的最先进的生成式单目深度估计模型。除了传统的深度估计任务外,DepthFM还展示了在深度修复等下游任务中的最先进能力。DepthFM效率高,可以在少数推理步骤内合成深度图。下面一起来阅读一下这项工作~1.论文信息标题:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

谷歌狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理训练最快选择 谷歌狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理训练最快选择 Apr 01, 2024 pm 07:46 PM

谷歌力推的JAX在最近的基准测试中性能已经超过Pytorch和TensorFlow,7项指标排名第一。而且测试并不是在JAX性能表现最好的TPU上完成的。虽然现在在开发者中,Pytorch依然比Tensorflow更受欢迎。但未来,也许有更多的大模型会基于JAX平台进行训练和运行。模型最近,Keras团队为三个后端(TensorFlow、JAX、PyTorch)与原生PyTorch实现以及搭配TensorFlow的Keras2进行了基准测试。首先,他们为生成式和非生成式人工智能任务选择了一组主流

iPhone上的蜂窝数据互联网速度慢:修复 iPhone上的蜂窝数据互联网速度慢:修复 May 03, 2024 pm 09:01 PM

在iPhone上面临滞后,缓慢的移动数据连接?通常,手机上蜂窝互联网的强度取决于几个因素,例如区域、蜂窝网络类型、漫游类型等。您可以采取一些措施来获得更快、更可靠的蜂窝互联网连接。修复1–强制重启iPhone有时,强制重启设备只会重置许多内容,包括蜂窝网络连接。步骤1–只需按一次音量调高键并松开即可。接下来,按降低音量键并再次释放它。步骤2–该过程的下一部分是按住右侧的按钮。让iPhone完成重启。启用蜂窝数据并检查网络速度。再次检查修复2–更改数据模式虽然5G提供了更好的网络速度,但在信号较弱

超级智能体生命力觉醒!可自我更新的AI来了,妈妈再也不用担心数据瓶颈难题 超级智能体生命力觉醒!可自我更新的AI来了,妈妈再也不用担心数据瓶颈难题 Apr 29, 2024 pm 06:55 PM

哭死啊,全球狂炼大模型,一互联网的数据不够用,根本不够用。训练模型搞得跟《饥饿游戏》似的,全球AI研究者,都在苦恼怎么才能喂饱这群数据大胃王。尤其在多模态任务中,这一问题尤为突出。一筹莫展之际,来自人大系的初创团队,用自家的新模型,率先在国内把“模型生成数据自己喂自己”变成了现实。而且还是理解侧和生成侧双管齐下,两侧都能生成高质量、多模态的新数据,对模型本身进行数据反哺。模型是啥?中关村论坛上刚刚露面的多模态大模型Awaker1.0。团队是谁?智子引擎。由人大高瓴人工智能学院博士生高一钊创立,高

特斯拉机器人进厂打工,马斯克:手的自由度今年将达到22个! 特斯拉机器人进厂打工,马斯克:手的自由度今年将达到22个! May 06, 2024 pm 04:13 PM

特斯拉机器人Optimus最新视频出炉,已经可以在厂子里打工了。正常速度下,它分拣电池(特斯拉的4680电池)是这样的:官方还放出了20倍速下的样子——在小小的“工位”上,拣啊拣啊拣:这次放出的视频亮点之一在于Optimus在厂子里完成这项工作,是完全自主的,全程没有人为的干预。并且在Optimus的视角之下,它还可以把放歪了的电池重新捡起来放置,主打一个自动纠错:对于Optimus的手,英伟达科学家JimFan给出了高度的评价:Optimus的手是全球五指机器人里最灵巧的之一。它的手不仅有触觉

阿里7B多模态文档理解大模型拿下新SOTA 阿里7B多模态文档理解大模型拿下新SOTA Apr 02, 2024 am 11:31 AM

多模态文档理解能力新SOTA!阿里mPLUG团队发布最新开源工作mPLUG-DocOwl1.5,针对高分辨率图片文字识别、通用文档结构理解、指令遵循、外部知识引入四大挑战,提出了一系列解决方案。话不多说,先来看效果。复杂结构的图表一键识别转换为Markdown格式:不同样式的图表都可以:更细节的文字识别和定位也能轻松搞定:还能对文档理解给出详细解释:要知道,“文档理解”目前是大语言模型实现落地的一个重要场景,市面上有很多辅助文档阅读的产品,有的主要通过OCR系统进行文字识别,配合LLM进行文字理

美国空军高调展示首个AI战斗机!部长亲自试驾全程未干预,10万行代码试飞21次 美国空军高调展示首个AI战斗机!部长亲自试驾全程未干预,10万行代码试飞21次 May 07, 2024 pm 05:00 PM

最近,军事圈被这个消息刷屏了:美军的战斗机,已经能由AI完成全自动空战了。是的,就在最近,美军的AI战斗机首次公开,揭开了神秘面纱。这架战斗机的全名是可变稳定性飞行模拟器测试飞机(VISTA),由美空军部长亲自搭乘,模拟了一对一的空战。5月2日,美国空军部长FrankKendall在Edwards空军基地驾驶X-62AVISTA升空注意,在一小时的飞行中,所有飞行动作都由AI自主完成!Kendall表示——在过去的几十年中,我们一直在思考自主空对空作战的无限潜力,但它始终显得遥不可及。然而如今,

单卡跑Llama 70B快过双卡,微软硬生生把FP6搞到了A100里 | 开源 单卡跑Llama 70B快过双卡,微软硬生生把FP6搞到了A100里 | 开源 Apr 29, 2024 pm 04:55 PM

FP8和更低的浮点数量化精度,不再是H100的“专利”了!老黄想让大家用INT8/INT4,微软DeepSpeed团队在没有英伟达官方支持的条件下,硬生生在A100上跑起FP6。测试结果表明,新方法TC-FPx在A100上的FP6量化,速度接近甚至偶尔超过INT4,而且拥有比后者更高的精度。在此基础之上,还有端到端的大模型支持,目前已经开源并集成到了DeepSpeed等深度学习推理框架中。这一成果对大模型的加速效果也是立竿见影——在这种框架下用单卡跑Llama,吞吐量比双卡还要高2.65倍。一名

See all articles