Rumah > pangkalan data > tutorial mysql > Bagaimana untuk Memilih Baris Teratas dengan Cekap untuk Setiap Kumpulan dalam Spark?

Bagaimana untuk Memilih Baris Teratas dengan Cekap untuk Setiap Kumpulan dalam Spark?

Susan Sarandon
Lepaskan: 2025-01-23 12:57:10
asal
1020 orang telah melayarinya

How to Efficiently Select the Top Row for Each Group in Spark?

Pilih baris pertama setiap kumpulan dengan cekap

Artikel ini bertujuan untuk mengekstrak baris data dengan "jumlah nilai" tertinggi dalam setiap kumpulan "jam" dan "kategori". Terdapat beberapa cara untuk melakukan ini:

Gunakan fungsi tetingkap:

Fungsi tetingkap menyediakan cara yang cekap untuk melakukan pengiraan dalam setiap kumpulan. Berikut ialah satu cara untuk melakukannya:

<code>import org.apache.spark.sql.functions.{row_number, max, broadcast}
import org.apache.spark.sql.expressions.Window

val w = Window.partitionBy($"Hour").orderBy($"TotalValue".desc)

val dfTop = df.withColumn("rn", row_number.over(w)).where($"rn" === 1).drop("rn")</code>
Salin selepas log masuk

Menggunakan agregasi SQL dan gabungan:

Pendekatan lain ialah menggunakan pengagregatan SQL dan gabungan seterusnya:

<code>val dfMax = df.groupBy($"Hour".as("max_hour")).agg(max($"TotalValue").as("max_value"))

val dfTopByJoin = df.join(broadcast(dfMax),
    ($"Hour" === $"max_hour") && ($"TotalValue" === $"max_value"))
  .drop("max_hour")
  .drop("max_value")</code>
Salin selepas log masuk

Gunakan pengisihan struktur:

Cara bijak ialah mengisih struct yang mengandungi "Jumlah Nilai" dan "Kategori":

<code>val dfTop = df.select($"Hour", struct($"TotalValue", $"Category").alias("vs"))
  .groupBy($"Hour")
  .agg(max("vs").alias("vs"))
  .select($"Hour", $"vs.Category", $"vs.TotalValue")</code>
Salin selepas log masuk

Menggunakan DataSet API (Spark 1.6):

API Set Data menyediakan cara ringkas untuk mencapai hasil yang sama:

<code>case class Record(Hour: Integer, Category: String, TotalValue: Double)

df.as[Record]
  .groupBy($"Hour")
  .reduce((x, y) => if (x.TotalValue > y.TotalValue) x else y)</code>
Salin selepas log masuk

Cara mengelakkan kesilapan:

Kaedah berikut mungkin menghasilkan hasil yang tidak boleh dipercayai dan harus dielakkan:

  • df.orderBy(...).groupBy(...).agg(first(...), ...)
  • df.orderBy(...).dropDuplicates(...)

Atas ialah kandungan terperinci Bagaimana untuk Memilih Baris Teratas dengan Cekap untuk Setiap Kumpulan dalam Spark?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Artikel terbaru oleh pengarang
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan