하이브 내장 기능이란 무엇입니까?

coldplay.xixi
풀어 주다: 2023-01-13 00:33:24
원래의
4215명이 탐색했습니다.

hive 내장 기능: 1. 데이터를 처리하는 사용자 정의 함수 2. 한 줄을 입력하고 여러 줄을 출력해야 하는 문제를 해결하는 데 사용됨[(다대일 매핑)]; 많은 작업 데이터 행이 있는 함수로 하나의 데이터 행을 생성합니다.

하이브 내장 기능이란 무엇입니까?

이 문서의 운영 환경: Windows 7 시스템, Dell G3 컴퓨터.

hive 내장 함수:

정의:

UDF(User-Defined-Function), 데이터를 처리하는 사용자 정의 함수입니다.

UDTF(User-Defined Table-Generating Functions)는 한 줄을 입력하고 여러 줄을 출력해야 하는 필요성을 해결하는 데 사용됩니다(On-to-Many 매핑).

UDAF(User Defined Aggregation Function)는 여러 데이터 행에 대해 작동하여 하나의 데이터 행을 생성하는 사용자 정의 집계 함수입니다.

사용법:

 1. UDF 함수는 select 문에 직접 적용하고 쿼리 구조를 포맷한 후 내용을 출력할 수 있습니다.

 2. UDF 함수를 작성할 때 다음 사항에 주의해야 합니다:

a) 사용자 정의 UDF는 상속되어야 합니다org.apache.hadoop.hive.ql.UDF.

b) 평가 기능을 구현해야 합니다.

c) 평가 함수는 오버로딩을 지원합니다.

hive의 로컬 모드:

대부분의 Hadoop 작업에는 빅 데이터를 처리하기 위해 hadoop이 제공하는 완전한 확장성이 필요합니다. 그러나 때로는 하이브에 입력되는 데이터의 양이 매우 작습니다. 이 경우 쿼리에 대한 작업을 실행하는 데 소요되는 시간이 실제 작업 실행 시간보다 훨씬 길어질 수 있습니다. 대부분의 상황에서 Hive는 로컬 모드를 통해 단일 시스템의 모든 작업을 처리할 수 있습니다. 작은 데이터 세트의 경우 실행 시간이 크게 단축됩니다.

  이런 방식으로 상대적으로 적은 양의 데이터를 사용하는 작업을 로컬에서 실행할 수 있으며, 이는 실행을 위해 클러스터에 작업을 제출하는 것보다 훨씬 빠릅니다.

  Hive의 로컬 모드를 활성화하려면 다음 매개변수를 구성하세요.

hive> set hive.exec.mode.local.auto=true;(默认为false)
로그인 후 복사

하이브 내장 기능이란 무엇입니까?

작업이 다음 조건을 충족하는 경우에만 로컬 모드를 실제로 사용할 수 있습니다.

  1. 작업의 입력 데이터 크기는 매개변수보다 작아야 합니다. : hive.exec.mode.local.auto.inputbytes.max (기본값 128MB)

  2. 작업 맵 수는 매개변수 hive.exec.mode.local.auto.tasks.max ( 기본값 4)

3. 작업의 리듀서 수는 0 또는 1이어야 합니다

관련 무료 학습 권장 사항: php 프로그래밍(동영상)

위 내용은 하이브 내장 기능이란 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿