Rumah > pembangunan bahagian belakang > Tutorial Python > Bagaimana untuk Mengira Median dan Kuantil dengan Cekap dalam Apache Spark?

Bagaimana untuk Mengira Median dan Kuantil dengan Cekap dalam Apache Spark?

DDD
Lepaskan: 2024-11-02 09:44:02
asal
283 orang telah melayarinya

How to Efficiently Calculate Median and Quantiles in Apache Spark?

Mencari Median dan Kuantil dalam Apache Spark

Pengenalan

Apabila berurusan dengan set data yang besar, mencari median dan kuantil boleh menjadi tugas yang mahal dari segi pengiraan. Keupayaan pengkomputeran teragih Spark menjadikannya sangat sesuai untuk mengendalikan pengiraan sedemikian.

Spark 2.0

Anggaran dengan anggaranKuantil:

Contoh:

<code class="python"># DataFrame:
df.approxQuantile("x", [0.5], 0.25)

# RDD:
rdd.map(lambda x: (x,)).toDF().approxQuantile("x", [0.5], 0.25)</code>
Salin selepas log masuk

SQL:

Dalam pengagregatan SQL, anda boleh menggunakan fungsi approx_percentile untuk menganggarkan kuantil:

<code class="sql">SELECT approx_percentile(column, 0.5) FROM table;</code>
Salin selepas log masuk

Pra-Spark 2.0

Persampelan dan Tempatan Pengiraan:

Untuk set data yang lebih kecil atau apabila kuantiti yang tepat tidak diperlukan, pensampelan data dan pengiraan kuantiti secara tempatan boleh menjadi pilihan yang berdaya maju. Ini mengelakkan overhed untuk mengisih dan mengagihkan data.

Contoh:

<code class="python">from numpy import median

sampled_rdd = rdd.sample(False, 0.1)  # Sample 10% of the data
sampled_quantiles = median(sampled_rdd.collect())</code>
Salin selepas log masuk

Isih dan Pembahagian:

Jika pensampelan tidak dapat dilaksanakan, menyusun data dan mencari median atau kuantiti lain boleh dilakukan secara terus pada RDD. Walau bagaimanapun, pendekatan ini boleh menjadi lebih perlahan dan kurang cekap berbanding dengan pensampelan.

Contoh:

<code class="python">import numpy as np

# Sort and compute quantiles
sorted_rdd = rdd.sortBy(lambda x: x)
partition_index = int(len(rdd.collect()) * p)
partition_value = sorted_rdd.collect()[partition_index]

# Compute quantiles by splitting the partitions
if p == 0.5:
    median = partition_value
else:
    partition_value_left = sorted_rdd.collect()[partition_index - 1]
    median = partition_value_left + (p - 0.5) * (partition_value - partition_value_left)</code>
Salin selepas log masuk

UDAF Hive:

Jika menggunakan HiveContext, anda boleh memanfaatkan UDAF Hive untuk mengira kuantiti:

<code class="python"># Continuous values:
sqlContext.sql("SELECT percentile(x, 0.5) FROM table")

# Integral values:
sqlContext.sql("SELECT percentile_approx(x, 0.5) FROM table")</code>
Salin selepas log masuk

Kesimpulan

Spark menyediakan pelbagai pilihan untuk mencari median dan kuantiti. Pilihan kaedah bergantung pada faktor seperti saiz data, keperluan ketepatan dan ketersediaan HiveContext.

Atas ialah kandungan terperinci Bagaimana untuk Mengira Median dan Kuantil dengan Cekap dalam Apache Spark?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

sumber:php.cn
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan