So teilen Sie komplexe Datenstrukturen in Spark-DataFrames auf
In Spark-Dataframes können komplexe Datenstrukturen wie Strukturen und Karten zum Speichern verwendet werden verschachtelte Daten effizient verarbeiten. Allerdings kann es notwendig werden, diese Strukturen zu verflachen, um direkt mit den einzelnen Elementen arbeiten zu können.
Verschachtelte Strukturen verflachen
Um die verschachtelten Felder einer Struktur zu extrahieren, muss die Spalte col Die Funktion kann mit dem Platzhalterzeichen * kombiniert werden. Betrachten Sie beispielsweise das folgende Datenrahmenschema:
|-- data: struct (nullable = true) | |-- id: long (nullable = true) | |-- keyNote: struct (nullable = true) | | |-- key: string (nullable = true) | | |-- note: string (nullable = true) | |-- details: map (nullable = true) | | |-- key: string | | |-- value: string (valueContainsNull = true)
Um diese Struktur zu reduzieren und einen neuen Datenrahmen zu erstellen, verwenden Sie Folgendes:
df.select(df.col("data.*"))
Dadurch wird ein Datenrahmen mit der folgenden reduzierten Struktur erstellt:
|-- id: long (nullable = true) |-- keyNote: struct (nullable = true) | |-- key: string (nullable = true) | |-- note: string (nullable = true) |-- details: map (nullable = true) | |-- key: string | |-- value: string (valueContainsNull = true)
Verschachtelte Karten reduzieren
In ähnlicher Weise können verschachtelte Karten mit der folgenden Syntax reduziert werden:
df.select(df.col("data.details").as("map_details"))
Dadurch wird ein Datenrahmen erstellt mit der abgeflachten Karte als neue Spalte mit dem Namen „map_details“. Die Spalte hat die folgende Struktur:
|-- map_details: map (nullable = true) | |-- key: string | |-- value: string (valueContainsNull = true)
Das obige ist der detaillierte Inhalt vonWie lassen sich komplexe Datenstrukturen in Spark DataFrames verflachen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!