Comment interroger efficacement les colonnes imbriquées (cartes, tableaux, structures) dans les DataFrames Spark SQL ?-tutoriel mysql-php.cn

Comment interroger efficacement les colonnes imbriquées (cartes, tableaux, structures) dans les DataFrames Spark SQL ?

Patricia Arquette

Libérer： 2025-01-21 11:16:10

original

913 Les gens l'ont consulté

How to Effectively Query Nested Columns (Maps, Arrays, Structs) in Spark SQL DataFrames?

Guide de requête de colonnes imbriquées Spark SQL DataFrame

Présentation

Cet article vise à présenter de manière exhaustive comment interroger des types complexes tels que des cartes et des tableaux dans Spark SQL DataFrame. Il aborde diverses techniques et fonctions permettant d'accéder et de manipuler efficacement les données imbriquées.

Requête de tableau

Spark SQL prend en charge plusieurs méthodes pour récupérer des éléments d'un tableau :

Méthode getItem : Extrayez des éléments spécifiques en fonction de l'index.
```
<code>  df.select($"an_array".getItem(1)).show</code>
```
Copier après la connexion
Syntaxe des crochets Hive : Accédez aux éléments d'index à l'aide de crochets de style Hive.
```
<code>  sqlContext.sql("SELECT an_array[1] FROM df").show</code>
```
Copier après la connexion

UDF : Utilisez des fonctions définies par l'utilisateur (UDF) pour spécifier des index dynamiques.

<code>  val get_ith = udf((xs: Seq[Int], i: Int) => Try(xs(i)).toOption)
  df.select(get_ith($"an_array", lit(1))).show</code>

Copier après la connexion

Requête de carte

Pour récupérer des paires clé-valeur à partir d'une carte :

Méthode getField : Utilisez la méthode getField pour accéder à une valeur spécifique par clé.
```
<code>  df.select($"a_map".getField("foo")).show</code>
```
Copier après la connexion
Syntaxe des crochets Hive : Utilisez les crochets de style Hive pour accéder aux valeurs par clé.
```
<code>  sqlContext.sql("SELECT a_map['foz'] FROM df").show</code>
```
Copier après la connexion
Syntaxe du chemin complet : Utilisez la syntaxe par points pour accéder aux valeurs par clé.
```
<code>  df.select($"a_map.foo").show</code>
```
Copier après la connexion

Requête de structure

Pour accéder aux champs dans la structure :

Syntaxe par points : Utilisez la syntaxe par points pour récupérer les champs d'une structure.
```
<code>  df.select($"a_struct.x").show</code>
```
Copier après la connexion

Autres notes

Tableaux imbriqués : Les champs d'un tableau de structure sont accessibles en utilisant la syntaxe par points en conjonction avec la méthode getItem.
```
<code>  df.select($"an_array_of_structs.foo").show</code>
```
Copier après la connexion
UDT : Les champs de types définis par l'utilisateur (UDT) sont accessibles à l'aide des UDF.

Description

La disponibilité de certaines méthodes peut dépendre de la version de Spark.
Toutes les opérations ne prennent pas entièrement en charge les valeurs imbriquées. Si nécessaire, aplatissez le motif ou agrandissez la collection.
Récupérez sélectivement plusieurs champs à l'aide de caractères génériques avec une syntaxe en pointillés (/).
Pour interroger les colonnes JSON, vous devez utiliser les fonctions get_json_object et from_json.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!