Memelihara Lajur Tambahan dalam Spark DataFrame GroupBy Operations
Dalam Spark DataFrame groupBy pertanyaan, adalah perkara biasa untuk mendapatkan hanya lajur dan agregat berkaitan kumpulan . Walau bagaimanapun, mungkin terdapat senario di mana anda berhasrat untuk mengekalkan lajur tambahan di luar kunci kumpulan dan hasil fungsi agregat.
Pertimbangkan kumpulanBy operasi berikut:
df.groupBy(df("age")).agg(Map("id" -> "count"))
Pertanyaan ini akan mengembalikan DataFrame dengan hanya dua lajur: "umur" dan "bilangan(id)". Jika anda memerlukan lajur tambahan daripada DataFrame asal, seperti "nama", anda boleh menggunakan beberapa pendekatan.
Pendekatan 1: Sertai Hasil Agregat dengan Jadual Asal
Satu kaedah adalah untuk menyertai DataFrame dengan hasil agregat untuk mendapatkan semula lajur yang hilang. Contohnya:
val agg = df.groupBy(df("age")).agg(Map("id" -> "count")) val result = df.join(agg, df("age") === agg("age"))
Teknik ini mengekalkan semua lajur daripada DataFrame asal tetapi boleh menjadi kurang cekap untuk set data yang besar.
Pendekatan 2: Agregat dengan Fungsi Tambahan (Pertama/Terakhir )
Anda juga boleh menggunakan fungsi agregat tambahan seperti pertama atau terakhir untuk disertakan lajur bukan kumpulan dalam hasil agregat. Contohnya:
df.groupBy(df("age")).agg(Map("id" -> "count", "name" -> "first"))
Ini akan mengembalikan DataFrame dengan tiga lajur: "umur," "count(id)" dan "first(name)."
Pendekatan 3: Fungsi Tetingkap Di Mana Penapis
Dalam sesetengah kes, anda boleh memanfaatkan fungsi tetingkap digabungkan dengan penapis tempat untuk mencapai yang diingini hasil. Walau bagaimanapun, pendekatan ini boleh mempunyai implikasi prestasi:
df.select( col("name"), col("age"), count("id").over(Window.partitionBy("age").rowsBetween(Window.unboundedPreceding, Window.currentRow)) ).where(col("name").isNotNull)
Dengan menggunakan teknik ini, anda boleh mengekalkan lajur tambahan dengan berkesan apabila melaksanakan operasi groupBy dalam Spark DataFrames, yang menampung pelbagai keperluan analisis.
Atas ialah kandungan terperinci Bagaimana untuk Mengekalkan Lajur Tambahan dalam Spark DataFrame GroupBy Operations?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!