この例では、Spark ウィンドウ関数を使用して、以降のログイン時にリセットされる 5 日間のアクティブ期間を考慮して、ユーザーのアクティブ化ステータスを判断する方法を示します。 ユーザー ログインの DataFrame が与えられ、各ユーザーがいつアクティブになったかを示す列を追加することを目的としています。
方法論: ウィンドウ関数の活用
私たちのアプローチはウィンドウ関数を使用して、アクティブステータスのリセットをトリガーするログインイベントを特定します。 ユーザーおよび日付別にログインを順序付けるウィンドウが作成されます。 このウィンドウを遅らせると、現在と以前のログイン時間を比較できるようになります。
<code class="language-scala">import org.apache.spark.sql.expressions.Window import org.apache.spark.sql.functions._ val window = Window.partitionBy("user_name").orderBy("login_date") val df2 = df.withColumn("previous_login", lag("login_date", 1).over(window))</code>
アクティブステータスのリセットへの対処
became_active
の日付は、前回のログイン ( previous_login
) が 5 日間のアクティブ期間内にあるかどうかを確認することによって決定されます。 previous_login
が null (初回ログイン) または時差 (login_date
- previous_login
) が 5 日未満の場合、became_active
は現在の login_date
に設定されます。それ以外の場合、プロセスはこの条件が満たされるまで再帰的に続行されます。
Spark の実装 (バージョン >= 3.2)
Spark 3.2 以降ではネイティブ セッション ウィンドウ サポートが提供され、このタスクが簡素化されています (詳細については公式ドキュメントを参照してください)。
Spark の実装 (古いバージョン)
古い Spark バージョンの場合は、次の回避策が必要です。
<code class="language-scala">val userWindow = Window.partitionBy("user_name").orderBy("login_date") val userSessionWindow = Window.partitionBy("user_name", "session")</code>
<code class="language-scala">val newSession = (coalesce( datediff($"login_date", lag($"login_date", 1).over(userWindow)), lit(0) ) > 5).cast("bigint")</code>
<code class="language-scala">val sessionized = df.withColumn("session", sum(newSession).over(userWindow)) val result = sessionized .withColumn("became_active", min($"login_date").over(userSessionWindow)) .drop("session")</code>
出力例
次の出力は、サンプル データセットを使用した結果を示しています。
<code>+----------------+----------+-------------+ | user_name|login_date|became_active| +----------------+----------+-------------+ | OprahWinfreyJr|2012-01-10| 2012-01-10| |SirChillingtonIV|2012-01-04| 2012-01-04| |SirChillingtonIV|2012-01-11| 2012-01-11| |SirChillingtonIV|2012-01-14| 2012-01-11| |SirChillingtonIV|2012-08-11| 2012-08-11| |Booooooo99900098|2012-01-04| 2012-01-04| |Booooooo99900098|2012-01-06| 2012-01-04| +----------------+----------+-------------+</code>
以上がウィンドウ関数は 5 日間のアクティブ期間のリセットでユーザーのアクティブ化ステータスをどのように識別できますか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。