> 데이터 베이스 > MySQL 튜토리얼 > Spark SQL 창 함수를 사용하여 Became_Active 날짜를 사용자 로그인 데이터에 효율적으로 할당하려면 어떻게 해야 합니까?

Spark SQL 창 함수를 사용하여 Became_Active 날짜를 사용자 로그인 데이터에 효율적으로 할당하려면 어떻게 해야 합니까?

Barbara Streisand
풀어 주다: 2025-01-10 11:04:43
원래의
310명이 탐색했습니다.

How Can I Efficiently Assign Became_Active Dates to User Login Data Using Spark SQL Window Functions?

창 함수를 사용하여 Spark SQL에서 Became_Active 날짜 할당 최적화

이 예에서는 특정 기간을 고려하여 사용자 로그인 데이터에 became_active 날짜를 할당하는 방법을 보여줍니다. 간단한 창 기능 접근 방식으로 충분해 보일 수 있지만 특히 이전 Spark 버전에 대한 보다 강력한 솔루션이 아래에 제시되어 있습니다.

Spark 3.2 이상

Spark 3.2 이상 버전에서는 세션 창(SPARK-10816, SPARK-34893)을 제공하여 이 작업을 크게 단순화합니다. 이러한 내장 기능은 세션 식별 및 날짜 할당을 직접 처리합니다. 세션 창 활용에 대한 자세한 내용은 Spark 설명서를 참조하세요.

Spark 3.2 이전 버전

3.2 이전 Spark 버전의 경우 다단계 접근 방식이 필요합니다.

  1. 필요한 기능 가져오기:
<code class="language-scala">import org.apache.spark.sql.expressions.Window
import org.apache.spark.sql.functions.{coalesce, datediff, lag, lit, min, sum}</code>
로그인 후 복사
  1. 창 정의:
<code class="language-scala">val userWindow = Window.partitionBy("user_name").orderBy("login_date")
val userSessionWindow = Window.partitionBy("user_name", "session")</code>
로그인 후 복사
  1. 세션 식별:

이 단계에서는 로그인 날짜의 5일 간격을 기준으로 신규 사용자 세션의 시작을 결정합니다.

<code class="language-scala">val newSession = (coalesce(
  datediff($"login_date", lag($"login_date", 1).over(userWindow)),
  lit(0)
) > 5).cast("bigint")

val sessionized = df.withColumn("session", sum(newSession).over(userWindow))</code>
로그인 후 복사
  1. 세션별 가장 빠른 로그인 날짜:

마지막으로 각 세션 내 가장 빠른 로그인 날짜가 became_active 날짜

로 지정됩니다.
<code class="language-scala">val result = sessionized
  .withColumn("became_active", min($"login_date").over(userSessionWindow))
  .drop("session")</code>
로그인 후 복사

이 방법은 정의된 기간을 준수하여 각 사용자의 became_active 열을 효과적으로 채우며 3.2 이전 Spark 버전에 대한 재귀적 접근 방식보다 더 깔끔한 솔루션을 제공합니다. 중개자로 사용된 session 열은 이후 삭제됩니다.

위 내용은 Spark SQL 창 함수를 사용하여 Became_Active 날짜를 사용자 로그인 데이터에 효율적으로 할당하려면 어떻게 해야 합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
저자별 최신 기사
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿