Menghimpun dan Mengagregatkan Data dengan Berbilang Lajur
Apabila menggunakan kaedah Spark DataFrame groupBy, anda boleh melakukan operasi pengagregatan pada lajur tertentu untuk meringkaskan data anda . Walau bagaimanapun, DataFrame yang terhasil hanya akan menyertakan lajur berkumpulan dan hasil agregat.
Untuk menangani had ini dan mendapatkan semula lajur tambahan bersama-sama dengan pengagregatan, pertimbangkan penyelesaian berikut:
Menggunakan Agregat Pertama atau Terakhir
Satu pendekatan ialah menggunakan yang pertama() atau terakhir() pengagregatan berfungsi untuk memasukkan lajur tambahan dalam DataFrame terkumpul anda. Contohnya:
df.groupBy(df("age")).agg(Map("name" -> "first", "id" -> "count"))
Pertanyaan ini akan membuat DataFrame dengan tiga lajur: "umur," "nama" dan "count(id)." Lajur "nama" mengandungi nilai pertama untuk setiap kumpulan umur dan lajur "count(id)" mengandungi kiraan nilai "id" untuk setiap kumpulan umur.
Menyertai Keputusan Agregat
Penyelesaian lain ialah untuk menyertai DataFrame agregat dengan DataFrame asal menggunakan lajur berkumpulan sebagai kunci penyambung. Pendekatan ini mengekalkan semua lajur dalam DataFrame asal anda:
val aggregatedDf = df.groupBy(df("age")).agg(Map("id" -> "count")) val joinedDf = aggregatedDf.join(df, Seq("age"), "left")
DataFrame "joinedDf" yang terhasil akan mengandungi semua lajur daripada DataFrame asal, bersama-sama dengan pengagregatan "count(id)" daripada DataFrame terkumpul.
Menggunakan Tetingkap Fungsi
Akhir sekali, anda juga boleh menggunakan fungsi tetingkap untuk meniru gelagat groupBy yang diingini dengan lajur tambahan. Berikut ialah contoh:
df.withColumn("rowNum", row_number().over(Window.partitionBy("age"))) .groupBy("age").agg(first("name"), count("id")) .select("age", "name", "count(id)")
Pertanyaan ini mencipta fungsi tetingkap untuk menetapkan nombor baris kepada setiap rekod dalam setiap kumpulan umur. Ia kemudian menggunakan nombor baris ini untuk mendapatkan kejadian pertama "nama" untuk setiap kumpulan umur, bersama-sama dengan pengagregatan "count(id)".
Pilihan pendekatan bergantung pada keperluan khusus dan pertimbangan prestasi bagi permohonan anda.
Atas ialah kandungan terperinci Bagaimanakah saya boleh mengekalkan semua lajur apabila mengagregat data dalam Spark DataFrame menggunakan groupBy?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!