Rumah > pangkalan data > tutorial mysql > Bagaimana untuk Mengekalkan Lajur Tambahan dalam Spark DataFrame GroupBy Operations?

Bagaimana untuk Mengekalkan Lajur Tambahan dalam Spark DataFrame GroupBy Operations?

Susan Sarandon
Lepaskan: 2024-12-25 02:11:17
asal
592 orang telah melayarinya

How to Preserve Additional Columns in Spark DataFrame GroupBy Operations?

Memelihara Lajur Tambahan dalam Spark DataFrame GroupBy Operations

Dalam Spark DataFrame groupBy pertanyaan, adalah perkara biasa untuk mendapatkan hanya lajur dan agregat berkaitan kumpulan . Walau bagaimanapun, mungkin terdapat senario di mana anda berhasrat untuk mengekalkan lajur tambahan di luar kunci kumpulan dan hasil fungsi agregat.

Pertimbangkan kumpulanBy operasi berikut:

df.groupBy(df("age")).agg(Map("id" -> "count"))
Salin selepas log masuk

Pertanyaan ini akan mengembalikan DataFrame dengan hanya dua lajur: "umur" dan "bilangan(id)". Jika anda memerlukan lajur tambahan daripada DataFrame asal, seperti "nama", anda boleh menggunakan beberapa pendekatan.

Pendekatan 1: Sertai Hasil Agregat dengan Jadual Asal

Satu kaedah adalah untuk menyertai DataFrame dengan hasil agregat untuk mendapatkan semula lajur yang hilang. Contohnya:

val agg = df.groupBy(df("age")).agg(Map("id" -> "count"))
val result = df.join(agg, df("age") === agg("age"))
Salin selepas log masuk

Teknik ini mengekalkan semua lajur daripada DataFrame asal tetapi boleh menjadi kurang cekap untuk set data yang besar.

Pendekatan 2: Agregat dengan Fungsi Tambahan (Pertama/Terakhir )

Anda juga boleh menggunakan fungsi agregat tambahan seperti pertama atau terakhir untuk disertakan lajur bukan kumpulan dalam hasil agregat. Contohnya:

df.groupBy(df("age")).agg(Map("id" -> "count", "name" -> "first"))
Salin selepas log masuk

Ini akan mengembalikan DataFrame dengan tiga lajur: "umur," "count(id)" dan "first(name)."

Pendekatan 3: Fungsi Tetingkap Di Mana Penapis

Dalam sesetengah kes, anda boleh memanfaatkan fungsi tetingkap digabungkan dengan penapis tempat untuk mencapai yang diingini hasil. Walau bagaimanapun, pendekatan ini boleh mempunyai implikasi prestasi:

df.select(
  col("name"),
  col("age"),
  count("id").over(Window.partitionBy("age").rowsBetween(Window.unboundedPreceding, Window.currentRow))
).where(col("name").isNotNull)
Salin selepas log masuk

Dengan menggunakan teknik ini, anda boleh mengekalkan lajur tambahan dengan berkesan apabila melaksanakan operasi groupBy dalam Spark DataFrames, yang menampung pelbagai keperluan analisis.

Atas ialah kandungan terperinci Bagaimana untuk Mengekalkan Lajur Tambahan dalam Spark DataFrame GroupBy Operations?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

sumber:php.cn
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Artikel terbaru oleh pengarang
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan