大規模なデータセットの中央値または分位点を決定することは、統計分析とデータの分布に関する洞察の提供にとって重要です。これに関連して、Apache Spark は、これらの値を計算するための分散メソッドを提供します。
Spark バージョン 2.0 以降の場合は、estimateQuantile メソッドを利用できます。 Greenwald-Khanna アルゴリズムを実装し、分位数を近似する効率的な方法を提供します。
構文 (Python):
<code class="python">df.approxQuantile("column_name", [quantile value 0.5], relative_error)</code>
構文 (Scala):
<code class="scala">df.stat.approxQuantile("column_name", Array[Double](0.5), relative_error)</code>
ここで、relative_error は結果の精度を制御するパラメータです。値が大きいほど、精度は低くなりますが、計算は速くなります。
Python:
言語非依存 (UDAF):
HiveContext を使用する場合、Hive UDAF を利用して分位数を計算できます。例:
<code class="sql">SELECT percentile_approx(column_name, quantile value) FROM table</code>
データセットが小さい場合 (この場合は約 700,000 要素)、ローカルでデータを収集し、後で中央値を計算する方が効率的である可能性があります。ただし、大規模なデータセットの場合は、上記の分散手法が効率的でスケーラブルなソリューションを提供します。
以上がApache Spark を使用して大規模なデータセットの中央値と分位数を効率的に計算するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。