> 데이터 베이스 > MySQL 튜토리얼 > groupBy를 사용하여 Spark DataFrame에서 데이터를 집계할 때 모든 열을 유지하려면 어떻게 해야 합니까?

groupBy를 사용하여 Spark DataFrame에서 데이터를 집계할 때 모든 열을 유지하려면 어떻게 해야 합니까?

DDD
풀어 주다: 2024-12-22 16:27:11
원래의
414명이 탐색했습니다.

How can I retain all columns when aggregating data in a Spark DataFrame using groupBy?

여러 열로 데이터 그룹화 및 집계

Spark DataFrame의 groupBy 메서드를 사용하면 특정 열에 대해 집계 작업을 수행하여 데이터를 요약할 수 있습니다. . 그러나 결과 DataFrame에는 그룹화된 열과 집계된 결과만 포함됩니다.

이 제한 사항을 해결하고 집계와 함께 추가 열을 검색하려면 다음 해결 방법을 고려하세요.

사용 첫 번째 또는 마지막 집계

한 가지 접근 방식은 first() 또는 last() 집계 함수를 사용하여 포함하는 것입니다. 그룹화된 DataFrame의 추가 열. 예:

df.groupBy(df("age")).agg(Map("name" -> "first", "id" -> "count"))
로그인 후 복사

이 쿼리는 "age", "name" 및 "count(id)"라는 세 개의 열이 있는 DataFrame을 생성합니다. "name" 열에는 각 연령 그룹의 첫 번째 값이 포함되고, "count(id)" 열에는 각 연령 그룹의 "id" 값의 개수가 포함됩니다.

집계된 결과 결합

또 다른 해결책은 그룹화된 열을 조인 키로 사용하여 집계된 DataFrame을 원래 DataFrame과 조인하는 것입니다. 이 접근 방식은 원본 DataFrame의 모든 열을 보존합니다.

val aggregatedDf = df.groupBy(df("age")).agg(Map("id" -> "count"))
val joinedDf = aggregatedDf.join(df, Seq("age"), "left")
로그인 후 복사

결과 DataFrame "joinedDf"에는 그룹화된 DataFrame의 "count(id)" 집계와 함께 원본 DataFrame의 모든 열이 포함됩니다.

창 기능 사용하기

마지막으로, 또한 창 함수를 사용하여 추가 열을 사용하여 원하는 groupBy 동작을 에뮬레이트할 수도 있습니다. 예는 다음과 같습니다.

df.withColumn("rowNum", row_number().over(Window.partitionBy("age")))
.groupBy("age").agg(first("name"), count("id"))
.select("age", "name", "count(id)")
로그인 후 복사

이 쿼리는 각 연령 그룹 내의 각 레코드에 행 번호를 할당하는 창 함수를 생성합니다. 그런 다음 이 행 번호를 사용하여 "count(id)" 집계와 함께 각 연령 그룹에 대해 처음으로 나타나는 "name"을 검색합니다.

접근 방식 선택은 특정 요구 사항 및 성능 고려 사항에 따라 다릅니다. 귀하의 지원서입니다.

위 내용은 groupBy를 사용하여 Spark DataFrame에서 데이터를 집계할 때 모든 열을 유지하려면 어떻게 해야 합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿