이 예에서는 이후 로그인 시 재설정되는 5일 활성 기간을 고려하여 Spark 창 기능을 사용하여 사용자 활성화 상태를 확인하는 방법을 보여줍니다. 사용자 로그인에 대한 DataFrame이 제공되며 각 사용자가 언제 활성화되었는지 보여주는 열을 추가하는 것을 목표로 합니다.
방법론: 창 기능 활용
우리의 접근 방식은 창 기능을 사용하여 활성 상태 재설정을 트리거하는 로그인 이벤트를 식별합니다. 사용자 및 날짜별로 로그인을 정렬하는 창이 생성됩니다. 이 창을 지연시키면 현재 로그인 시간과 이전 로그인 시간을 비교할 수 있습니다.
<code class="language-scala">import org.apache.spark.sql.expressions.Window import org.apache.spark.sql.functions._ val window = Window.partitionBy("user_name").orderBy("login_date") val df2 = df.withColumn("previous_login", lag("login_date", 1).over(window))</code>
활성 상태 재설정 문제 해결
became_active
날짜는 이전 로그인( previous_login
)이 5일 활성 기간에 속하는지 확인하여 결정됩니다. previous_login
이 null(첫 번째 로그인)이거나 시차(login_date
- previous_login
)가 5일 미만인 경우 became_active
가 현재 login_date
로 설정됩니다. 그렇지 않으면 이 조건이 충족될 때까지 프로세스가 재귀적으로 계속됩니다.
Spark 구현(버전 >= 3.2)
Spark 3.2 이상에서는 기본 세션 창 지원을 제공하여 이 작업을 단순화합니다(자세한 내용은 공식 문서 참조).
Spark 구현(이전 버전)
이전 Spark 버전의 경우 해결 방법이 필요합니다.
<code class="language-scala">val userWindow = Window.partitionBy("user_name").orderBy("login_date") val userSessionWindow = Window.partitionBy("user_name", "session")</code>
<code class="language-scala">val newSession = (coalesce( datediff($"login_date", lag($"login_date", 1).over(userWindow)), lit(0) ) > 5).cast("bigint")</code>
<code class="language-scala">val sessionized = df.withColumn("session", sum(newSession).over(userWindow)) val result = sessionized .withColumn("became_active", min($"login_date").over(userSessionWindow)) .drop("session")</code>
출력 예
다음 출력은 샘플 데이터세트를 사용한 결과를 보여줍니다.
<code>+----------------+----------+-------------+ | user_name|login_date|became_active| +----------------+----------+-------------+ | OprahWinfreyJr|2012-01-10| 2012-01-10| |SirChillingtonIV|2012-01-04| 2012-01-04| |SirChillingtonIV|2012-01-11| 2012-01-11| |SirChillingtonIV|2012-01-14| 2012-01-11| |SirChillingtonIV|2012-08-11| 2012-08-11| |Booooooo99900098|2012-01-04| 2012-01-04| |Booooooo99900098|2012-01-06| 2012-01-04| +----------------+----------+-------------+</code>
위 내용은 5일 활성 기간 재설정을 통해 창 기능이 사용자 활성화 상태를 어떻게 식별할 수 있습니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!