Bagaimana untuk Mengira Median dan Kuantil dengan Cekap dalam Set Data Besar dengan Apache Spark?-Tutorial Python-php.cn

Bagaimana untuk Mengira Median dan Kuantil dengan Cekap dalam Set Data Besar dengan Apache Spark?

Patricia Arquette

Lepaskan： 2024-10-29 07:44:30

asal

744 orang telah melayarinya

How to Efficiently Calculate Median and Quantiles in Large Datasets with Apache Spark?

Cara Mencari Median dan Kuantil Menggunakan Apache Spark

Menentukan median atau kuantiti set data yang besar adalah penting untuk analisis statistik dan memberikan cerapan tentang pengedaran data. Dalam konteks ini, Apache Spark menyediakan kaedah teragih untuk mengira nilai ini.

Kaedah 1: Menggunakan approxQuantile (Spark 2.0 )

Untuk Spark versi 2.0 dan ke atas, anda boleh menggunakan kaedah approxQuantile. Ia melaksanakan algoritma Greenwald-Khanna, menawarkan cara yang cekap untuk menganggarkan kuantiti.

Syntax (Python):

<code class="python">df.approxQuantile("column_name", [quantile value 0.5], relative_error)</code>

Salin selepas log masuk

Syntax (Scala):

<code class="scala">df.stat.approxQuantile("column_name", Array[Double](0.5), relative_error)</code>

Salin selepas log masuk

di mana relative_error ialah parameter yang mengawal ketepatan keputusan. Nilai yang lebih tinggi sepadan dengan pengiraan yang kurang tepat tetapi lebih pantas.

Kaedah 2: Pengiraan Manual Menggunakan Isih (Spark < 2.0)

Python:

Isih RDD dalam tertib menaik: sorted_rdd = rdd.sortBy(lambda x: x)
Kira panjang RDD: n = sorted_rdd.count()
Kira indeks bagi elemen median menggunakan h = floor((n - 1) * nilai kuantil))
Cari elemen median dengan mencari indeks dalam RDD yang diisih: median = sorted_rdd.lookup(floor(h))

Bahasa Bebas (UDAF):

Jika anda menggunakan HiveContext, anda boleh memanfaatkan UDAF Hive untuk mengira kuantiti. Contohnya:

<code class="sql">SELECT percentile_approx(column_name, quantile value) FROM table</code>

Salin selepas log masuk

Nota

Untuk set data yang lebih kecil (sekitar 700,000 elemen dalam kes anda), mungkin lebih cekap untuk mengumpul data secara setempat dan mengira median selepas itu. Walau bagaimanapun, untuk set data yang lebih besar, kaedah teragih yang diterangkan di atas menyediakan penyelesaian yang cekap dan berskala.

Atas ialah kandungan terperinci Bagaimana untuk Mengira Median dan Kuantil dengan Cekap dalam Set Data Besar dengan Apache Spark?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!