Bagaimanakah saya boleh mengekalkan semua lajur apabila mengagregat data dalam Spark DataFrame menggunakan groupBy?-tutorial mysql-php.cn

Bagaimanakah saya boleh mengekalkan semua lajur apabila mengagregat data dalam Spark DataFrame menggunakan groupBy?

DDD

Lepaskan： 2024-12-22 16:27:11

asal

474 orang telah melayarinya

How can I retain all columns when aggregating data in a Spark DataFrame using groupBy?

Menghimpun dan Mengagregatkan Data dengan Berbilang Lajur

Apabila menggunakan kaedah Spark DataFrame groupBy, anda boleh melakukan operasi pengagregatan pada lajur tertentu untuk meringkaskan data anda . Walau bagaimanapun, DataFrame yang terhasil hanya akan menyertakan lajur berkumpulan dan hasil agregat.

Untuk menangani had ini dan mendapatkan semula lajur tambahan bersama-sama dengan pengagregatan, pertimbangkan penyelesaian berikut:

Menggunakan Agregat Pertama atau Terakhir

Satu pendekatan ialah menggunakan yang pertama() atau terakhir() pengagregatan berfungsi untuk memasukkan lajur tambahan dalam DataFrame terkumpul anda. Contohnya:

df.groupBy(df("age")).agg(Map("name" -> "first", "id" -> "count"))

Salin selepas log masuk

Pertanyaan ini akan membuat DataFrame dengan tiga lajur: "umur," "nama" dan "count(id)." Lajur "nama" mengandungi nilai pertama untuk setiap kumpulan umur dan lajur "count(id)" mengandungi kiraan nilai "id" untuk setiap kumpulan umur.

Menyertai Keputusan Agregat

Penyelesaian lain ialah untuk menyertai DataFrame agregat dengan DataFrame asal menggunakan lajur berkumpulan sebagai kunci penyambung. Pendekatan ini mengekalkan semua lajur dalam DataFrame asal anda:

val aggregatedDf = df.groupBy(df("age")).agg(Map("id" -> "count"))
val joinedDf = aggregatedDf.join(df, Seq("age"), "left")

Salin selepas log masuk

DataFrame "joinedDf" yang terhasil akan mengandungi semua lajur daripada DataFrame asal, bersama-sama dengan pengagregatan "count(id)" daripada DataFrame terkumpul.

Menggunakan Tetingkap Fungsi

Akhir sekali, anda juga boleh menggunakan fungsi tetingkap untuk meniru gelagat groupBy yang diingini dengan lajur tambahan. Berikut ialah contoh:

df.withColumn("rowNum", row_number().over(Window.partitionBy("age")))
.groupBy("age").agg(first("name"), count("id"))
.select("age", "name", "count(id)")

Salin selepas log masuk

Pertanyaan ini mencipta fungsi tetingkap untuk menetapkan nombor baris kepada setiap rekod dalam setiap kumpulan umur. Ia kemudian menggunakan nombor baris ini untuk mendapatkan kejadian pertama "nama" untuk setiap kumpulan umur, bersama-sama dengan pengagregatan "count(id)".

Pilihan pendekatan bergantung pada keperluan khusus dan pertimbangan prestasi bagi permohonan anda.

Atas ialah kandungan terperinci Bagaimanakah saya boleh mengekalkan semua lajur apabila mengagregat data dalam Spark DataFrame menggunakan groupBy?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!