Frage:
Ein DataFrame, der Aufzeichnungen von Benutzern enthält, die sich auf der Website anmelden. Sie müssen feststellen, wann ein Benutzer aktiv ist, und einen Aktivitätszeitraum berücksichtigen. Wenn sich der Benutzer nach diesem Zeitraum erneut anmeldet, wird sein aktives Datum zurückgesetzt.
Vorgeschlagene Methode:
Identifizieren Sie mithilfe einer Fensterfunktion mit Hysterese und Rekursion die erste oder letzte Anmeldung innerhalb des Aktivitätszeitraums, um das Aktivitätsdatum zu bestimmen.
Native Spark-Lösung (>= 3.2):
Spark 3.2 und höher unterstützt Sitzungsfenster. Anwendungsbeispiele finden Sie in der offiziellen Dokumentation.
Legacy-Lösung (Spark < 3.2):
Importfunktion:
Window
wird zum Definieren von Fenstern verwendetcoalesce
, datediff
, lag
, lit
, min
, sum
Definitionsfenster:
userWindow
Partitioniert nach user_name
und sortiert nach login_date
userSessionWindow
Partitionieren Sie user_name
durch session
und Suchen Sie den Beginn einer neuen Sitzung:
datediff
und lag
, um Anmeldedaten zu vergleichen und zu prüfen, ob eine Lücke besteht, die größer als der aktive Zeitraum ist. cast
, um das Ergebnis in bigint
umzuwandeln. userWindow
auf sum
, um neue Sitzungsstarts zu sammeln. Finden Sie den frühesten Termin für jede Sitzung:
withColumn
, um session
Spalten hinzuzufügen. userSessionWindow
auf min
, um den frühesten login_date
für jede Sitzung zu finden. session
. Beispiel:
<code class="language-scala"> val df = Seq( ("SirChillingtonIV", "2012-01-04"), ("Booooooo99900098", "2012-01-04"), ("Booooooo99900098", "2012-01-06"), ("OprahWinfreyJr", "2012-01-10"), ("SirChillingtonIV", "2012-01-11"), ("SirChillingtonIV", "2012-01-14"), ("SirChillingtonIV", "2012-08-11") ).toDF("user_name", "login_date") val result = sessionized //sessionized is assumed to be defined elsewhere, this is a crucial part missing from the original .withColumn("became_active", min($"login_date").over(userSessionWindow)) .drop("session") df.show(5) result.show(5)</code>
Beachten Sie, dass die Definition von sessionized
im Beispielcode fehlt, was ein wichtiger Teil zur Vervollständigung dieser Lösung ist. Die Spalte session
muss basierend auf dem Aktivitätszeitraum und dem Anmeldedatum berechnet werden. Dies erfordert normalerweise eine benutzerdefinierte Funktion oder eine komplexere Fensterfunktionslogik. Eine vollständige Lösung erfordert das Hinzufügen dieses fehlenden Codeteils.
Das obige ist der detaillierte Inhalt vonWie ermittelt man die aktiven Daten des Benutzers in Spark SQL mithilfe von Fensterfunktionen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!