Spark RDD équivalent de SQL Row_Number pour les données partitionnées
En SQL, row_number() génère un numéro séquentiel pour les lignes dans les ensembles de données partitionnés. Cette fonctionnalité n'est pas directement disponible dans les RDD Spark. Cependant, il existe des solutions de contournement pour obtenir des fonctionnalités similaires.
Partitionnement du RDD
Le partitionnement est crucial pour générer des numéros de ligne au sein des groupes. Dans votre cas, vous devez partitionner le RDD par la valeur_clé (K) avant de trier. Considérez le code mis à jour :
val temp2 = temp1 .map(x => (x._1, (x._2, x._3, x._4))) .sortBy(a => (a._1, -a._2._2, -a._2._3)) .zipWithIndex .map(a => (a._1._1, a._1._2._1, a._1._2._2, a._1._2._3, a._2 + 1))
En appliquant sortBy à (a._1, -a._2._2, -a._2._3), vous effectuez un tri en fonction de key_value, puis en décroissant col2, et enfin col3 décroissant, imitant le comportement SQL row_number().
Ajout d'une ligne Numéros
Après le partitionnement et le tri, vous pouvez ajouter les numéros de ligne à l'aide de zipWithIndex :
val rowNums = temp2.map(a => (a._1, a._2, a._3, a._4, a._5)).cache()
Remarque : L'implémentation DataFrame fournie dans la réponse est une Solution pour les DataFrames, mais pas pour les RDD.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!