Maison > base de données > tutoriel mysql > Comment filtrer efficacement les DataFrames PySpark à l'aide d'une clause IN ?

Comment filtrer efficacement les DataFrames PySpark à l'aide d'une clause IN ?

Patricia Arquette
Libérer: 2024-12-28 21:57:11
original
361 Les gens l'ont consulté

How to Efficiently Filter PySpark DataFrames Using an IN Clause?

Gestion du filtrage Pyspark DataFrame avec une clause IN

Le filtrage d'un DataFrame Pyspark avec une clause IN de type SQL peut être réalisé avec le formatage de chaîne.

Dans l'exemple donné :

sc = SparkContext()
sqlc = SQLContext(sc)
df = sqlc.sql('SELECT * from my_df WHERE field1 IN a')
Copier après la connexion

Les chaînes transmises à SQLContext sont évaluées dans l'environnement SQL et ne capturent pas les fermetures. Pour transmettre explicitement des variables, utilisez le formatage de chaîne :

df.registerTempTable("df")
sqlContext.sql("SELECT * FROM df WHERE v IN {0}".format(("foo", "bar"))).count()
Copier après la connexion

Alternativement, le DataFrame DSL offre une meilleure option pour les requêtes dynamiques :

from pyspark.sql.functions import col

df.where(col("v").isin({"foo", "bar"})).count()
Copier après la connexion

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Derniers articles par auteur
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal