Spark DataFrame 操作では、特定の列でデータをグループ化し、上位 N 項目を取得する必要がある場合があります。各グループ内の項目。この記事では、Python の例から着想を得て、Scala を使用してこれを実現する方法を説明します。
提供された DataFrame を検討します:
上位 N 項目を取得するにはユーザー グループごとに、orderBy および where 操作と組み合わせてウィンドウ関数を利用できます。実装は次のとおりです。
同点が問題でない場合は、rank を row_number に置き換えることができます。
このアプローチを使用すると、 DataFrame 内の各ユーザー グループの上位 N 項目を効率的に取得できます。
以上がSpark DataFrame 内のグループごとに上位 N 項目を取得するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。