Eine verschachtelte Struktur im Spark-Datenrahmen reduzieren
Man kann auf Situationen stoßen, in denen ein Datenrahmen komplexe verschachtelte Strukturen enthält und deren Reduzierung notwendig wird. Stellen Sie sich einen Datenrahmen mit der folgenden Struktur vor:
|-- data: struct (nullable = true) | |-- id: long (nullable = true) | |-- keyNote: struct (nullable = true) | | |-- key: string (nullable = true) | | |-- note: string (nullable = true) | |-- details: map (nullable = true) | | |-- key: string | | |-- value: string (valueContainsNull = true)
Das Ziel besteht darin, diese Struktur zu verflachen und einen neuen Datenrahmen mit der folgenden vereinfachten Struktur zu erstellen:
|-- id: long (nullable = true) |-- keyNote: struct (nullable = true) | |-- key: string (nullable = true) | |-- note: string (nullable = true) |-- details: map (nullable = true) | |-- key: string | |-- value: string (valueContainsNull = true)
Während Spark dies nicht explizit bereitstellt Als „Explode“-Funktion für Strukturen kann die folgende Methode in Spark 1.6 oder höher verwendet werden, um das gewünschte Ergebnis zu erzielen:
df.select(df.col("data.*"))
Alternativ, wenn nur bestimmte Felder der „Daten“-Struktur benötigt werden, kann die Folgende Syntax kann verwendet werden:
df.select(df.col("data.id"), df.col("data.keyNote"), df.col("data.details"))
Durch die Verwendung dieser Techniken ist es möglich, komplexe verschachtelte Strukturen in Spark-Datenrahmen zu reduzieren, was eine weitere Analyse und Bearbeitung der Daten ermöglicht.
Das obige ist der detaillierte Inhalt vonWie glätte ich verschachtelte Strukturen in einem Spark-Datenrahmen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!