Fonctions intégrées de Hive : 1. Fonctions définies par l'utilisateur pour traiter les données ; 2. Utilisées pour résoudre le besoin de saisir une ligne et de produire plusieurs lignes [(Mappage sur plusieurs)] ; Fonction d'agrégation définie par l'utilisateur, fonctionne sur plusieurs lignes de données et produit une ligne de données.
L'environnement d'exploitation de cet article : système Windows 7, ordinateur Dell G3.
Fonction intégrée de la ruche :
Définition :
UDF (User-Defined-Function), définie par l'utilisateur paire de fonctions Les données sont traitées.
UDTF (fonctions de génération de tables définies par l'utilisateur) est utilisé pour résoudre le besoin de saisir une ligne et de sortir plusieurs lignes (mappage sur plusieurs).
UDAF (User Defined Aggregation Function) est une fonction d'agrégation définie par l'utilisateur qui fonctionne sur plusieurs lignes de données et génère une ligne de données.
Utilisation :
1. La fonction UDF peut être directement appliquée à l'instruction select, formater la structure de la requête, puis afficher le contenu.
2. Lors de l'écriture de fonctions UDF, vous devez faire attention aux points suivants :
a) L'UDF personnalisée doit hériter de org.apache.hadoop.hive.ql.UDF
.
b) Nécessité d'implémenter la fonction d'évaluation.
c) La fonction d'évaluation prend en charge la surcharge.
mode local de Hive :
La plupart des tâches Hadoop nécessitent l'évolutivité complète fournie par Hadoop pour traiter le Big Data. Cependant, la quantité de données d’entrée dans la ruche est parfois très faible. Dans ce cas, le temps nécessaire à l'exécution de la tâche pour la requête peut être beaucoup plus long que le temps d'exécution réel de la tâche. Pour la plupart de ces situations, Hive peut gérer toutes les tâches sur une seule machine via le mode local. Pour les petits ensembles de données, le temps d'exécution est considérablement réduit.
De cette manière, les opérations avec une quantité relativement petite de données peuvent être exécutées localement, ce qui est beaucoup plus rapide que de soumettre des tâches au cluster pour exécution.
Configurez les paramètres suivants pour activer le mode local de Hive :
hive> set hive.exec.mode.local.auto=true;(默认为false)
Ce n'est que lorsqu'une tâche remplit les conditions suivantes que le mode local peut être véritablement utilisé :
1. La taille des données d'entrée du travail doit être inférieure au paramètre : hive.exec.mode.local.auto.inputbytes.max (par défaut 128 Mo)
2. Le nombre de cartes de le travail doit être plus petit que le paramètre : hive.exec.mode .local.auto.tasks.max (par défaut 4)
3. Le nombre réduit de travail doit être 0 ou 1
Recommandations d'apprentissage gratuites associées : programmation php(vidéo)
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!