Integrierte Hive-Funktionen: 1. Benutzerdefinierte Funktionen zum Verarbeiten von Daten 2. Wird verwendet, um die Notwendigkeit zu lösen, eine Zeile einzugeben und mehrere Zeilen auszugeben [(On-to-many-Mapping)]; Funktionen mit vielen Operationsdatenzeilen, die eine Datenzeile erzeugen.
Die Betriebsumgebung dieses Artikels: Windows 7-System, Dell G3-Computer.
Hive integrierte Funktion:
Definition:
UDF (User-Defined-Function), benutzerdefinierte Funktion zur Verarbeitung von Daten.
UDTF (User-Defined Table-Generating Functions) wird verwendet, um die Notwendigkeit der Eingabe einer Zeile und der Ausgabe mehrerer Zeilen (On-to-many-Mapping) zu lösen.
UDAF (User Defined Aggregation Function) ist eine benutzerdefinierte Aggregationsfunktion, die mehrere Datenzeilen bearbeitet und eine Datenzeile generiert.
Verwendung:
1. Die UDF-Funktion kann direkt auf die SELECT-Anweisung angewendet werden, die Abfragestruktur formatieren und dann den Inhalt ausgeben.
2. Beim Schreiben von UDF-Funktionen müssen Sie auf die folgenden Punkte achten:
a) Benutzerdefiniertes UDF muss geerbt werdenorg.apache.hadoop.hive.ql.UDF
.
b) Die Evaluierungsfunktion muss implementiert werden.
c) Die Evaluierungsfunktion unterstützt das Überladen.
Hives lokaler Modus:
Die meisten Hadoop-Jobs erfordern die vollständige Skalierbarkeit von Hadoop, um große Datenmengen zu verarbeiten. Allerdings ist die Menge der in Hive zu übertragenden Eingabedaten manchmal sehr gering. In diesem Fall kann die Zeit, die zum Ausführen der Aufgabe für die Abfrage benötigt wird, viel länger sein als die tatsächliche Ausführungszeit des Jobs. In den meisten dieser Situationen kann Hive alle Aufgaben auf einem einzigen Computer im lokalen Modus erledigen. Bei kleinen Datensätzen verkürzt sich die Ausführungszeit deutlich.
Auf diese Weise können Vorgänge mit einer relativ kleinen Datenmenge lokal ausgeführt werden, was viel schneller ist, als Aufgaben zur Ausführung an den Cluster zu senden.
Konfigurieren Sie die folgenden Parameter, um den lokalen Modus von Hive zu aktivieren:
hive> set hive.exec.mode.local.auto=true;(默认为false)
Nur wenn ein Job die folgenden Bedingungen erfüllt, kann er den lokalen Modus wirklich verwenden:
1. Die Eingabedatengröße des Jobs muss kleiner als der Parameter sein : hive.exec.mode. local.auto.inputbytes.max (Standard 128 MB)
2. Die Anzahl der Maps des Jobs muss kleiner sein als der Parameter: hive.exec.mode.local.auto.tasks.max ( Standard 4)
3. Die Anzahl der Reduzierer des Jobs muss 0 oder 1 sein
Das obige ist der detaillierte Inhalt vonWas sind integrierte Hive-Funktionen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!