여러 열로 데이터 그룹화 및 집계
Spark DataFrame의 groupBy 메서드를 사용하면 특정 열에 대해 집계 작업을 수행하여 데이터를 요약할 수 있습니다. . 그러나 결과 DataFrame에는 그룹화된 열과 집계된 결과만 포함됩니다.
이 제한 사항을 해결하고 집계와 함께 추가 열을 검색하려면 다음 해결 방법을 고려하세요.
사용 첫 번째 또는 마지막 집계
한 가지 접근 방식은 first() 또는 last() 집계 함수를 사용하여 포함하는 것입니다. 그룹화된 DataFrame의 추가 열. 예:
df.groupBy(df("age")).agg(Map("name" -> "first", "id" -> "count"))
이 쿼리는 "age", "name" 및 "count(id)"라는 세 개의 열이 있는 DataFrame을 생성합니다. "name" 열에는 각 연령 그룹의 첫 번째 값이 포함되고, "count(id)" 열에는 각 연령 그룹의 "id" 값의 개수가 포함됩니다.
집계된 결과 결합
또 다른 해결책은 그룹화된 열을 조인 키로 사용하여 집계된 DataFrame을 원래 DataFrame과 조인하는 것입니다. 이 접근 방식은 원본 DataFrame의 모든 열을 보존합니다.
val aggregatedDf = df.groupBy(df("age")).agg(Map("id" -> "count")) val joinedDf = aggregatedDf.join(df, Seq("age"), "left")
결과 DataFrame "joinedDf"에는 그룹화된 DataFrame의 "count(id)" 집계와 함께 원본 DataFrame의 모든 열이 포함됩니다.
창 기능 사용하기
마지막으로, 또한 창 함수를 사용하여 추가 열을 사용하여 원하는 groupBy 동작을 에뮬레이트할 수도 있습니다. 예는 다음과 같습니다.
df.withColumn("rowNum", row_number().over(Window.partitionBy("age"))) .groupBy("age").agg(first("name"), count("id")) .select("age", "name", "count(id)")
이 쿼리는 각 연령 그룹 내의 각 레코드에 행 번호를 할당하는 창 함수를 생성합니다. 그런 다음 이 행 번호를 사용하여 "count(id)" 집계와 함께 각 연령 그룹에 대해 처음으로 나타나는 "name"을 검색합니다.
접근 방식 선택은 특정 요구 사항 및 성능 고려 사항에 따라 다릅니다. 귀하의 지원서입니다.
위 내용은 groupBy를 사용하여 Spark DataFrame에서 데이터를 집계할 때 모든 열을 유지하려면 어떻게 해야 합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!