창 함수를 사용하여 Spark SQL에서 Became_Active 날짜 할당 최적화
이 예에서는 특정 기간을 고려하여 사용자 로그인 데이터에 became_active
날짜를 할당하는 방법을 보여줍니다. 간단한 창 기능 접근 방식으로 충분해 보일 수 있지만 특히 이전 Spark 버전에 대한 보다 강력한 솔루션이 아래에 제시되어 있습니다.
Spark 3.2 이상
Spark 3.2 이상 버전에서는 세션 창(SPARK-10816, SPARK-34893)을 제공하여 이 작업을 크게 단순화합니다. 이러한 내장 기능은 세션 식별 및 날짜 할당을 직접 처리합니다. 세션 창 활용에 대한 자세한 내용은 Spark 설명서를 참조하세요.
Spark 3.2 이전 버전
3.2 이전 Spark 버전의 경우 다단계 접근 방식이 필요합니다.
<code class="language-scala">import org.apache.spark.sql.expressions.Window import org.apache.spark.sql.functions.{coalesce, datediff, lag, lit, min, sum}</code>
<code class="language-scala">val userWindow = Window.partitionBy("user_name").orderBy("login_date") val userSessionWindow = Window.partitionBy("user_name", "session")</code>
이 단계에서는 로그인 날짜의 5일 간격을 기준으로 신규 사용자 세션의 시작을 결정합니다.
<code class="language-scala">val newSession = (coalesce( datediff($"login_date", lag($"login_date", 1).over(userWindow)), lit(0) ) > 5).cast("bigint") val sessionized = df.withColumn("session", sum(newSession).over(userWindow))</code>
마지막으로 각 세션 내 가장 빠른 로그인 날짜가 became_active
날짜
<code class="language-scala">val result = sessionized .withColumn("became_active", min($"login_date").over(userSessionWindow)) .drop("session")</code>
이 방법은 정의된 기간을 준수하여 각 사용자의 became_active
열을 효과적으로 채우며 3.2 이전 Spark 버전에 대한 재귀적 접근 방식보다 더 깔끔한 솔루션을 제공합니다. 중개자로 사용된 session
열은 이후 삭제됩니다.
위 내용은 Spark SQL 창 함수를 사용하여 Became_Active 날짜를 사용자 로그인 데이터에 효율적으로 할당하려면 어떻게 해야 합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!