Spark DataFrame을 사용하여 그룹화된 TopN 집계를 수행하는 방법
Spark SQL에서는 SQL과 유사한 구문을 활용하여 복잡한 데이터 조작을 수행할 수 있습니다. 일반적인 작업 중 하나는 데이터를 그룹화하고 각 그룹에서 상위 N개 값을 검색하는 것입니다. Spark DataFrame을 사용하여 이를 달성하는 방법은 다음과 같습니다.
특정 열을 기준으로 데이터를 그룹화하려면 GROUP BY 절에 열 이름을 지정하세요.
<br>df. groupBy("user")<br>
각 그룹 내에서 결과를 정렬하려면, orderBy 함수를 사용할 수 있습니다:
<br>df.groupBy("user").orderBy(desc("rated"))<br>
이렇게 하면 각 사용자 그룹에 대한 등급 열의 내림차순으로 데이터가 정렬됩니다.
각 그룹의 상위 N개 레코드에 대해 다음 제한 기능을 사용할 수 있습니다.
<br>df.groupBy("user").orderBy(desc("rated")).limit(n) <br>
여기서 n은 원하는 상위 레코드 수입니다. 검색.
또는 창 기능을 사용하여 각 그룹 내의 레코드 순위를 지정한 다음 순위에 따라 필터링할 수 있습니다.
<br>import org.apache.spark. sql.expressions.Window<br>import org.apache.spark.sql.functions.{순위, desc}</p> <p>// 창 정의<br>val w = Window.partitionBy($"user").orderBy(desc("rated"))</p> <p>// 필터<br>df .withColumn("순위", 순위.over(w)).where($"순위" <= n)<br>
동점에 관심이 없다면 순위 함수를 row_number 함수로 바꿀 수 있습니다.
위 내용은 Spark DataFrames에서 그룹화된 상위 N개 집계를 효율적으로 수행하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!