Subquery selalu digunakan dalam SQL untuk mendapatkan maklumat bersarang atau melakukan perbandingan. Walaupun SparkSQL menyokong subkueri tertentu, sokongannya tidak menyeluruh merentas semua versi. Artikel ini bertujuan untuk memberikan gambaran keseluruhan keupayaan subkueri SparkSQL dan membincangkan pengehadan dalam versi terdahulu.
Dari Spark 2.0 dan seterusnya, kedua-dua subkueri berkorelasi dan tidak berkorelasi disokong sepenuhnya. Ini membolehkan pertanyaan SQL yang lebih kompleks melibatkan data bersarang.
Contoh:
select * from l where exists (select * from r where l.a = r.c) select * from l where a in (select c from r)
Dalam versi Spark sebelum 2.0, subkueri hanya disokong dalam klausa FROM, serupa dengan versi Hive sebelum 0.12. Subkueri dalam klausa WHERE tidak disokong.
Sebagai contoh, pertanyaan berikut akan gagal dalam Spark < 2.0:
sqlContext.sql( "select sal from samplecsv where sal < (select MAX(sal) from samplecsv)" ).collect().foreach(println)
Sebagai tambahan kepada sokongan semasa, Spark telah merancang ciri untuk meningkatkan keupayaan subkuerinya:
Sokongan SparkSQL untuk subkueri telah berkembang dengan ketara selama bertahun-tahun. Walaupun versi terdahulu hanya menyokong subset terhad, Spark 2.0 dan ke atas menawarkan sokongan menyeluruh untuk kedua-dua subkueri berkorelasi dan tidak berkorelasi. Ciri yang dirancang bertujuan untuk meningkatkan lagi sokongan ini dalam keluaran akan datang.
Atas ialah kandungan terperinci Bagaimanakah Sokongan Subkueri SparkSQL Berbeza Antara Versi 2.0 dan Terdahulu?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!