Bagaimanakah Sokongan Subkueri SparkSQL Berbeza Antara Versi 2.0 dan Terdahulu?-tutorial mysql-php.cn

Bagaimanakah Sokongan Subkueri SparkSQL Berbeza Antara Versi 2.0 dan Terdahulu?

Barbara Streisand

Lepaskan： 2025-01-03 17:52:38

asal

346 orang telah melayarinya

How Does SparkSQL Subquery Support Differ Between Versions 2.0 and Earlier?

Sokongan Subquery dalam SparkSQL

Pengenalan

Subquery selalu digunakan dalam SQL untuk mendapatkan maklumat bersarang atau melakukan perbandingan. Walaupun SparkSQL menyokong subkueri tertentu, sokongannya tidak menyeluruh merentas semua versi. Artikel ini bertujuan untuk memberikan gambaran keseluruhan keupayaan subkueri SparkSQL dan membincangkan pengehadan dalam versi terdahulu.

Spark 2.0

Dari Spark 2.0 dan seterusnya, kedua-dua subkueri berkorelasi dan tidak berkorelasi disokong sepenuhnya. Ini membolehkan pertanyaan SQL yang lebih kompleks melibatkan data bersarang.

Contoh:

select * from l where exists (select * from r where l.a = r.c)
select * from l where a in (select c from r)

Salin selepas log masuk

Spark < 2.0

Dalam versi Spark sebelum 2.0, subkueri hanya disokong dalam klausa FROM, serupa dengan versi Hive sebelum 0.12. Subkueri dalam klausa WHERE tidak disokong.

Sebagai contoh, pertanyaan berikut akan gagal dalam Spark < 2.0:

sqlContext.sql(
 "select sal from samplecsv where sal < (select MAX(sal) from samplecsv)"
).collect().foreach(println)

Salin selepas log masuk

Ciri Terancang

Sebagai tambahan kepada sokongan semasa, Spark telah merancang ciri untuk meningkatkan keupayaan subkuerinya:

SPARK-23945: Sokongan untuk menggunakan DataFrame satu lajur sebagai input kepada Column.isin().
SPARK-18455: Sokongan umum untuk pemprosesan subkueri berkorelasi.

Kesimpulan

Sokongan SparkSQL untuk subkueri telah berkembang dengan ketara selama bertahun-tahun. Walaupun versi terdahulu hanya menyokong subset terhad, Spark 2.0 dan ke atas menawarkan sokongan menyeluruh untuk kedua-dua subkueri berkorelasi dan tidak berkorelasi. Ciri yang dirancang bertujuan untuk meningkatkan lagi sokongan ini dalam keluaran akan datang.

Atas ialah kandungan terperinci Bagaimanakah Sokongan Subkueri SparkSQL Berbeza Antara Versi 2.0 dan Terdahulu?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!