Menentukan median atau kuantiti set data yang besar adalah penting untuk analisis statistik dan memberikan cerapan tentang pengedaran data. Dalam konteks ini, Apache Spark menyediakan kaedah teragih untuk mengira nilai ini.
Untuk Spark versi 2.0 dan ke atas, anda boleh menggunakan kaedah approxQuantile. Ia melaksanakan algoritma Greenwald-Khanna, menawarkan cara yang cekap untuk menganggarkan kuantiti.
Syntax (Python):
<code class="python">df.approxQuantile("column_name", [quantile value 0.5], relative_error)</code>
Syntax (Scala):
<code class="scala">df.stat.approxQuantile("column_name", Array[Double](0.5), relative_error)</code>
di mana relative_error ialah parameter yang mengawal ketepatan keputusan. Nilai yang lebih tinggi sepadan dengan pengiraan yang kurang tepat tetapi lebih pantas.
Python:
Bahasa Bebas (UDAF):
Jika anda menggunakan HiveContext, anda boleh memanfaatkan UDAF Hive untuk mengira kuantiti. Contohnya:
<code class="sql">SELECT percentile_approx(column_name, quantile value) FROM table</code>
Untuk set data yang lebih kecil (sekitar 700,000 elemen dalam kes anda), mungkin lebih cekap untuk mengumpul data secara setempat dan mengira median selepas itu. Walau bagaimanapun, untuk set data yang lebih besar, kaedah teragih yang diterangkan di atas menyediakan penyelesaian yang cekap dan berskala.
Atas ialah kandungan terperinci Bagaimana untuk Mengira Median dan Kuantil dengan Cekap dalam Set Data Besar dengan Apache Spark?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!