UDF

UDAF

UDTF

首页

数据库

mysql教程

Hive自定义函数

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 07, 2016 pm 03:28 PM

hive 内置函数提供自定义

当Hive提供的内置函数无法满足你的业务处理需要时，此时就可以考虑使用用户自定义函数（UDF：user-defined function）。 Hive目前只支持用java语言书写自定义函数。如果需要采用其他语言，比如Python，可以考虑上一节提到的transform语法来实现。 Hive支持三

当Hive提供的内置函数无法满足你的业务处理需要时，此时就可以考虑使用用户自定义函数（UDF：user-defined function）。

Hive目前只支持用java语言书写自定义函数。如果需要采用其他语言，比如Python，可以考虑上一节提到的transform语法来实现。

Hive支持三种自定义函数，我们逐个讲解。

UDF

这是普通的用户自定义函数。接受单行输入，并产生单行输出。

编写java代码如下：

package com.oserp.hiveudf;

import org.apache.hadoop.hive.ql.exec.UDF;

import org.apache.hadoop.io.Text;

public classPassExam extendsUDF {

publicText evaluate(Integer score)

{

Text result = new Text();

if(score

result.set("Failed");

else

result.set("Pass");

return result;

}

然后，打包成.jar文件，比如hiveudf.jar。

执行以下语句：

add jar /home/user/hadoop_jar/hiveudf.jar;

create temporary function pass_scorecom.oserp.hiveudf.PassExam;

select stuNo,pass_score(score) from student;

输出结果为：

N0101 Pass

N0102 Failed

N0201 Pass

N0103 Pass

N0302 Pass

N0202 Pass

N0203 Pass

N0301 Failed

N0306 Pass

第一个语句注册jar文件；第二个语句为自定义函数取别名；第三个语句调用自定义函数。

Java代码中，自定义函数的类继承自UDF类，且提供了一个evaluate方法。这个方法接受一个整数值作为参数，并返回字符串。结构十分明了。其中的evaluate方法并没有作为interface提供，因为实际使用时，函数的参数个数及类型是多变的。

以上UDF名称是不区分大小写的，比如调用时写成PASS_SCORE也是可以的（因为它是hive中的别名，不是java类名）。

使用完成后，可调用以下语句删除函数别名：

Drop temporary function pass_score;

UDAF

用户定义聚集函数（User-defined aggregate function）。接受多行输入，并产生单行输出。比如MAX，COUNT函数。

编写以下Java代码：

packagecom.oserp.hiveudf;

importorg.apache.hadoop.hive.ql.exec.UDAF;

importorg.apache.hadoop.hive.ql.exec.UDAFEvaluator;

importorg.apache.hadoop.hive.serde2.io.DoubleWritable;

importorg.apache.hadoop.io.IntWritable;

publicclass HiveAvgextends UDAF {

public staticclass AvgEvaluate implements UDAFEvaluator

{

public staticclass PartialResult

{

public intcount;

public doubletotal;

public PartialResult()

{

count = 0;

total = 0;

}

private PartialResultpartialResult;

@Override

public voidinit() {

partialResult = new PartialResult();

}

public booleaniterate(IntWritable value)

{

// 此处一定要判断partialResult是否为空，否则会报错

// 原因就是init函数只会被调用一遍，不会为每个部分聚集操作去做初始化

//此处如果不加判断就会出错

if (partialResult==null)

{

partialResult =new PartialResult();

}

if (value !=null)

{

partialResult.total =partialResult.total +value.get();

partialResult.count=partialResult.count + 1;

}

return true;

}

public PartialResult terminatePartial()

{

returnpartialResult;

}

public booleanmerge(PartialResult other)

{

partialResult.total=partialResult.total + other.total;

partialResult.count=partialResult.count + other.count;

return true;

}

public DoubleWritable terminate()

{

return newDoubleWritable(partialResult.total /partialResult.count);

}

然后打包成jar文件，比如hiveudf.jar。

执行以下语句：

add jar/home/user/hadoop_jar/hiveudf.jar;

create temporary function avg_udf as'com.oserp.hiveudf.HiveAvg';

select classNo, avg_udf(score) from studentgroup by classNo;

输出结果如下：

C01 68.66666666666667

C02 80.66666666666667

C03 73.33333333333333

参照以上图示（来自Hadoop权威教程）我们来看看各个函数：

l Init在类似于构造函数，用于UDF的初始化。

注意上图中红色框中的init函数。在实际运行中，无论hive将记录集划分了多少个部分去做（比如上图中的file1和file2两个部分），init函数仅被调用一次。所以上图中的示例是有歧义的。这也是为什么上面的代码中加了特别的注释来说明。或者换一句话说，init函数中不应该用于初始化部分聚集值相关的逻辑，而应该处理全局的一些数据逻辑。

l Iterate函数用于聚合。当每一个新的值被聚合时，此函数被调用。

l TerminatePartial函数在部分聚合完成后被调用。当hive希望得到部分记录的聚合结果时，此函数被调用。

l Merge函数用于合并先前得到的部分聚合结果（也可以理解为分块记录的聚合结果）。

l Terminate返回最终的聚合结果。

我们可以看出merge的输入参数类型和terminatePartial函数的返回值类型必须是一致的。

UDTF

用户定义表生成函数（User-defined table-generating function）。接受单行输入，并产生多行输出（即一个表）。不是特别常用，此处不详述。

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

热工具

热门话题

gmail邮箱登陆入口在哪里

7476

CakePHP 教程

1377

steam的账户名称是什么格式

win11激活密钥永久

NYT连接提示和答案

显示更多

Related knowledge

golang函数动态创建新函数的技巧 Apr 25, 2024 pm 02:39 PM

Go语言提供了两种动态函数创建技术：closures和反射。closures允许访问闭包作用域内的变量，而反射可使用FuncOf函数创建新函数。这些技术在自定义HTTP路由器、实现高度可定制的系统和构建可插拔的组件方面非常有用。

C++ 函数命名中参数顺序的考虑 Apr 24, 2024 pm 04:21 PM

在C++函数命名中，考虑参数顺序至关重要，可提高可读性、减少错误并促进重构。常见的参数顺序约定包括：动作-对象、对象-动作、语义意义和遵循标准库。最佳顺序取决于函数目的、参数类型、潜在混淆和语言惯例。

如何在Java中写出高效和可维护的函数？ Apr 24, 2024 am 11:33 AM

编写高效和可维护的Java函数的关键在于：保持简洁。使用有意义的命名。处理特殊情况。使用适当的可见性。

excel函数公式大全 May 07, 2024 pm 12:04 PM

1、 SUM函数，用于对一列或一组单元格中的数字进行求和，例如：=SUM(A1:J10)。2、AVERAGE函数，用于计算一列或一组单元格中的数字的平均值，例如：=AVERAGE(A1:A10)。3、COUNT函数，用于计算一列或一组单元格中的数字或文本的数量，例如：=COUNT(A1:A10)4、IF函数，用于根据指定的条件进行逻辑判断，并返回相应的结果。

C++ 函数默认参数与可变参数的优缺点比较 Apr 21, 2024 am 10:21 AM

C++函数中默认参数的优点包括简化调用、增强可读性、避免错误。缺点是限制灵活性、命名限制。可变参数的优点包括无限灵活性、动态绑定。缺点包括复杂性更高、隐式类型转换、调试困难。

C++ 函数返回引用类型有什么好处？ Apr 20, 2024 pm 09:12 PM

C++中的函数返回引用类型的好处包括：性能提升：引用传递避免了对象复制，从而节省了内存和时间。直接修改：调用方可以直接修改返回的引用对象，而无需重新赋值。代码简洁：引用传递简化了代码，无需额外的赋值操作。

自定义 PHP 函数和预定义函数之间有什么区别？ Apr 22, 2024 pm 02:21 PM

自定义PHP函数与预定义函数的区别在于：作用域：自定义函数仅限于其定义范围，而预定义函数可在整个脚本中访问。定义方式：自定义函数使用function关键字定义，而预定义函数由PHP内核定义。参数传递：自定义函数接收参数，而预定义函数可能不需要参数。扩展性：自定义函数可以根据需要创建，而预定义函数是内置的且无法修改。

C++ 函数异常进阶：定制错误处理 May 01, 2024 pm 06:39 PM

C++中的异常处理可通过定制异常类增强，提供特定错误消息、上下文信息以及根据错误类型执行自定义操作。定义继承自std::exception的异常类，提供特定的错误信息。使用throw关键字抛出定制异常。在try-catch块中使用dynamic_cast将捕获到的异常转换为定制异常类型。实战案例中，open_file函数抛出FileNotFoundException异常，捕捉并处理该异常可提供更具体的错误消息。

See all articles

Hive自定义函数

UDF

UDAF

UDTF

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题