Menapis DataFrame Pyspark dengan klausa IN seperti SQL boleh dicapai dengan pemformatan rentetan.
Dalam contoh yang diberikan:
sc = SparkContext() sqlc = SQLContext(sc) df = sqlc.sql('SELECT * from my_df WHERE field1 IN a')
Rentetan dihantar ke SQLContext dinilai dalam persekitaran SQL dan tidak menangkap penutupan. Untuk menghantar pembolehubah secara eksplisit, gunakan pemformatan rentetan:
df.registerTempTable("df") sqlContext.sql("SELECT * FROM df WHERE v IN {0}".format(("foo", "bar"))).count()
Sebagai alternatif, DataFrame DSL menyediakan pilihan yang lebih baik untuk pertanyaan dinamik:
from pyspark.sql.functions import col df.where(col("v").isin({"foo", "bar"})).count()
Atas ialah kandungan terperinci Bagaimana untuk Menapis DataFrames PySpark dengan Cekap Menggunakan Klausa IN?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!