Maison > Problème commun > le corps du texte

Quelles sont les fonctions fournies avec Hive ?

(*-*)浩
Libérer: 2019-12-21 10:55:05
original
3547 Les gens l'ont consulté

Quelles sont les fonctions fournies avec Hive ?

Fonction intégrée de Hive

Définition : 🎜 >

UDF(User-Defined-Function),用户自定义函数对数据进行处理。
UDTF(User-Defined Table-Generating Functions) 用来解决 输入一行输出多行(On-to-many maping) 的需求。
UDAF(User Defined Aggregation Function)用户自定义聚合函数,操作多个数据行,产生一个数据行。
Copier après la connexion
Utilisation :

1. La fonction UDF peut être directement appliquée à l'instruction select, formater la structure de la requête, puis afficher le contenu. 2. Lors de l'écriture de fonctions UDF, vous devez faire attention aux points suivants :

a) L'UDF personnalisé doit hériter de org.apache.hadoop.hive.ql.UDF.

b) Nécessité d'implémenter la fonction d'évaluation.

c) La fonction d'évaluation prend en charge la surcharge.

mode local de Hive :

La plupart des tâches Hadoop nécessitent l'évolutivité complète fournie par Hadoop pour traiter le Big Data. Cependant, parfois la quantité de données d'entrée à héberger est très faible. Dans ce cas, le temps nécessaire à l'exécution de la tâche pour la requête peut être beaucoup plus long que le temps d'exécution réel de la tâche.

Pour la plupart de ces situations, Hive peut gérer toutes les tâches sur une seule machine via le mode local. Pour les petits ensembles de données, le temps d'exécution est considérablement réduit.

De cette manière, les opérations avec une quantité relativement petite de données peuvent être exécutées localement, ce qui est beaucoup plus rapide que de soumettre des tâches au cluster pour exécution.

Configurez les paramètres suivants pour activer le mode local de Hive :

hive> set hive.exec.mode.local.auto=true;(默认为false)
Copier après la connexion

Une tâche ne peut véritablement utiliser le mode local que lorsqu'elle répond aux exigences conditions suivantes :

Quelles sont les fonctions fournies avec Hive ?La taille des données d'entrée du travail doit être inférieure au paramètre : hive.exec.mode.local.auto.inputbytes.max (par défaut 128 Mo) Le le nombre de maps du job doit être inférieur au paramètre : hive.exec.mode.local.auto.tasks.max (par défaut 4)

Le nombre de jobs réduits doit être 0 ou 1

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal