Spark SQL 창 함수를 사용하여 Became_Active 날짜를 사용자 로그인 데이터에 효율적으로 할당하려면 어떻게 해야 합니까?-MySQL 튜토리얼-php.cn

Spark SQL 창 함수를 사용하여 Became_Active 날짜를 사용자 로그인 데이터에 효율적으로 할당하려면 어떻게 해야 합니까?

Barbara Streisand

풀어 주다： 2025-01-10 11:04:43

원래의

404명이 탐색했습니다.

How Can I Efficiently Assign Became_Active Dates to User Login Data Using Spark SQL Window Functions?

창 함수를 사용하여 Spark SQL에서 Became_Active 날짜 할당 최적화

이 예에서는 특정 기간을 고려하여 사용자 로그인 데이터에 became_active 날짜를 할당하는 방법을 보여줍니다. 간단한 창 기능 접근 방식으로 충분해 보일 수 있지만 특히 이전 Spark 버전에 대한 보다 강력한 솔루션이 아래에 제시되어 있습니다.

Spark 3.2 이상

Spark 3.2 이상 버전에서는 세션 창(SPARK-10816, SPARK-34893)을 제공하여 이 작업을 크게 단순화합니다. 이러한 내장 기능은 세션 식별 및 날짜 할당을 직접 처리합니다. 세션 창 활용에 대한 자세한 내용은 Spark 설명서를 참조하세요.

Spark 3.2 이전 버전

3.2 이전 Spark 버전의 경우 다단계 접근 방식이 필요합니다.

필요한 기능 가져오기:

import org.apache.spark.sql.expressions.Window
import org.apache.spark.sql.functions.{coalesce, datediff, lag, lit, min, sum}

로그인 후 복사

창 정의:

val userWindow = Window.partitionBy("user_name").orderBy("login_date")
val userSessionWindow = Window.partitionBy("user_name", "session")

로그인 후 복사

세션 식별:

이 단계에서는 로그인 날짜의 5일 간격을 기준으로 신규 사용자 세션의 시작을 결정합니다.

val newSession = (coalesce(
  datediff($"login_date", lag($"login_date", 1).over(userWindow)),
  lit(0)
) > 5).cast("bigint")

val sessionized = df.withColumn("session", sum(newSession).over(userWindow))

로그인 후 복사

세션별 가장 빠른 로그인 날짜:

마지막으로 각 세션 내 가장 빠른 로그인 날짜가 became_active 날짜

로 지정됩니다.

val result = sessionized
  .withColumn("became_active", min($"login_date").over(userSessionWindow))
  .drop("session")

로그인 후 복사

이 방법은 정의된 기간을 준수하여 각 사용자의 became_active 열을 효과적으로 채우며 3.2 이전 Spark 버전에 대한 재귀적 접근 방식보다 더 깔끔한 솔루션을 제공합니다. 중개자로 사용된 session 열은 이후 삭제됩니다.

위 내용은 Spark SQL 창 함수를 사용하여 Became_Active 날짜를 사용자 로그인 데이터에 효율적으로 할당하려면 어떻게 해야 합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!