SQL에서 row_number() 함수는 테이블의 각 레코드에 고유한 행 번호를 할당합니다. 주어진 열 세트로 분할되고 다른 세트로 정렬됩니다. 다음 단계를 사용하여 Spark RDD에 이 기능을 복제할 수 있습니다.
1. 키-값 쌍의 pairRDD 생성
튜플(K, V)의 RDD를 (K, (V, 1)) 쌍의 pairRDD로 변환합니다. 이렇게 하면 키 K와 자리 표시자 값 1을 기반으로 정렬을 적용할 수 있습니다.
2. RDD 정렬
sortByKey()를 사용하여 키 K를 기준으로 pairRDD를 정렬합니다. 이렇게 하면 동일한 키를 가진 모든 레코드가 그룹화됩니다.
3. Zip With Index
정렬된 RDD에서 zipWithIndex()를 호출하여 각 키 파티션 내의 행 번호를 나타내는 추가 열을 추가합니다.
4. 키, 값 및 행 번호 결합
매핑 함수를 사용하여 pairRDD에서 키, 값 및 행 번호를 추출하고 이를 새로운 튜플(K, V, rowNum)로 결합합니다.
이 프로세스를 사용하면 RDD의 각 레코드에 행 번호를 할당하여 SQL의 row_number() 함수 기능을 효과적으로 복제할 수 있습니다. 파티셔닝.
예:
val temp1 = sc.parallelize(Seq(((3,4),5,5,5),((3,4),5,5,9),((3,4),7,5,5),((1,2),1,2,3),((1,2),1,4,7),((1,2),2,2,3))) val temp2 = temp1 .map(x => (x, 1)) .sortByKey() .zipWithIndex() .map(a => (a._1._1, a._1._2._1, a._1._2._2, a._1._2._3, a._2 + 1)) temp2.collect().foreach(println)
출력:
((1,2),1,2,3,2) ((1,2),1,4,7,1) ((1,2),2,2,3,3) ((3,4),5,5,5,4) ((3,4),5,5,9,5) ((3,4),7,5,5,6)
위 내용은 Spark RDD를 사용하여 SQL의 `row_number()` 함수를 복제하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!