ホームページ > データベース > mysql チュートリアル > Spark DataFrame 内のグループごとに上位 N 項目を取得するにはどうすればよいですか?

Spark DataFrame 内のグループごとに上位 N 項目を取得するにはどうすればよいですか?

Linda Hamilton
リリース: 2024-12-23 01:57:15
オリジナル
385 人が閲覧しました

How to Get the Top N Items per Group in a Spark DataFrame?

Spark DataFrame GroupBy を使用してグループごとに上位 N 項目を取得する

Spark DataFrame 操作では、特定の列でデータをグループ化し、上位 N 項目を取得する必要がある場合があります。各グループ内の項目。この記事では、Python の例から着想を得て、Scala を使用してこれを実現する方法を説明します。

提供された DataFrame を検討します:

Scala ソリューション

上位 N 項目を取得するにはユーザー グループごとに、orderBy および where 操作と組み合わせてウィンドウ関数を利用できます。実装は次のとおりです。

代替オプション

同点が問題でない場合は、rank を row_number に置き換えることができます。

このアプローチを使用すると、 DataFrame 内の各ユーザー グループの上位 N 項目を効率的に取得できます。

以上がSpark DataFrame 内のグループごとに上位 N 項目を取得するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
著者別の最新記事
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート