지역 사회

배우다

도구 라이브러리

AI 도구

여가

한국어

집

데이터 베이스

MySQL 튜토리얼

Hive中Group By的去重

Hive中Group By的去重

Jun 07, 2016 pm 04:37 PM

hive 중복 제거 우리를

在Hive的是用中，我们经常会有这种需求：按照同一个id进行Ｇroup By，然后对另一个字段去重，例如下面得数据： id pic1.jpg2.jpg1.jpg 此时，是用DISTINCT或者2 col得Group By都是不行得，我们可以用这个UDAF：collect_set(col)，它将对同一个group by 得ke

在Hive的是用中，我们经常会有这种需求：

按照同一个id进行Ｇroup By，然后对另一个字段去重，例如下面得数据：

id pic
1.jpg
2.jpg
1.jpg

로그인 후 복사

此时，是用DISTINCT或者2 col得Group By都是不行得，我们可以用这个UDAF：collect_set(col)，它将对同一个group by 得key进行set去重后，转换为一个array。

再举一个例子，我们可以对pic进行去重，拼接：
SELECT id, CONCAT_WS(',', COLLECT_SET(pic)) FROM tbl GROUP BY id
在这里CONCAT_WS是UDF，COLLECT_SET是UDAF，它将group后的pic去重，并转换为了array，方便udf是用。

PS：如果不需要去重，可以使用COLLECT_LIST。

更多UDAF，见这里 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF

原文地址：Hive中Group By的去重, 感谢原作者分享。

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

인기 기사

Repo : 팀원을 부활시키는 방법

3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌

스플릿 소설을이기는 데 얼마나 걸립니까?

3 몇 주 전 By DDD

헬로 키티 아일랜드 어드벤처 : 거대한 씨앗을 얻는 방법

3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)

1 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌

공식 계정 웹 페이지의 캐싱 업데이트에 어려움 : 버전 업데이트 후 사용자 경험에 영향을 미치는 이전 캐시를 피하는 방법은 무엇입니까?

3 몇 주 전 By 王林

더보기

핫툴 태그

코드앤아이

오디오

사업

마케팅

AI감지기

챗봇

디자인&아트

인기 기사

Repo : 팀원을 부활시키는 방법

3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌

스플릿 소설을이기는 데 얼마나 걸립니까?

3 몇 주 전 By DDD

헬로 키티 아일랜드 어드벤처 : 거대한 씨앗을 얻는 방법

3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)

1 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌

공식 계정 웹 페이지의 캐싱 업데이트에 어려움 : 버전 업데이트 후 사용자 경험에 영향을 미치는 이전 캐시를 피하는 방법은 무엇입니까?

3 몇 주 전 By 王林

더보기

뜨거운 기사 태그

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

더보기

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7287

9

자바 튜토리얼

1622

14

Cakephp 튜토리얼

1342

46

라라벨 튜토리얼

1259

25

PHP 튜토리얼

1206

29

더보기

Related knowledge

Pandas의 효율적인 데이터 중복 제거 방법 공개: 중복 데이터를 빠르게 제거하는 팁

Pandas의 효율적인 데이터 중복 제거 방법 공개: 중복 데이터를 빠르게 제거하는 팁 Jan 24, 2024 am 08:12 AM

Pandas의 효율적인 데이터 중복 제거 방법 공개: 중복 데이터를 빠르게 제거하는 팁

단어에서 중복을 제거하는 방법

단어에서 중복을 제거하는 방법 Mar 20, 2024 pm 02:13 PM

단어에서 중복을 제거하는 방법

Java 개발에서 컬렉션 정렬 및 중복 제거 성능을 최적화하는 방법

Java 개발에서 컬렉션 정렬 및 중복 제거 성능을 최적화하는 방법 Jul 02, 2023 am 11:25 AM

Java 개발에서 컬렉션 정렬 및 중복 제거 성능을 최적화하는 방법

팬더에서 중복을 제거하는 방법은 무엇입니까?

팬더에서 중복을 제거하는 방법은 무엇입니까? Nov 22, 2023 am 11:55 AM

팬더에서 중복을 제거하는 방법은 무엇입니까?

PHP 배열을 섞은 후 중복 제거 작업을 수행하는 방법은 무엇입니까?

PHP 배열을 섞은 후 중복 제거 작업을 수행하는 방법은 무엇입니까? May 02, 2024 pm 01:33 PM

PHP 배열을 섞은 후 중복 제거 작업을 수행하는 방법은 무엇입니까?

PHP 배열에서 데이터 중복 제거를 달성하는 방법은 무엇입니까?

PHP 배열에서 데이터 중복 제거를 달성하는 방법은 무엇입니까? Apr 26, 2024 pm 06:51 PM

PHP 배열에서 데이터 중복 제거를 달성하는 방법은 무엇입니까?

Go 언어로 Hive를 사용하여 효율적인 데이터 웨어하우스 구현

Go 언어로 Hive를 사용하여 효율적인 데이터 웨어하우스 구현 Jun 15, 2023 pm 08:52 PM

Go 언어로 Hive를 사용하여 효율적인 데이터 웨어하우스 구현

PHP는 오픈 소스 Hive 빅 데이터 분석 플랫폼을 구현합니다.

PHP는 오픈 소스 Hive 빅 데이터 분석 플랫폼을 구현합니다. Jun 18, 2023 pm 02:47 PM

PHP는 오픈 소스 Hive 빅 데이터 분석 플랫폼을 구현합니다.

See all articles