Spark DataFrame에서 상수 열 생성
모든 행에 적용되는 임의의 값을 사용하여 Spark DataFrame에 상수 열을 추가하면 다음을 수행할 수 있습니다. 여러 가지 방법으로 달성됩니다. 이러한 목적으로 고안된 withColumn 메서드는 두 번째 인수로 직접 값을 제공하려고 할 때 오류가 발생할 수 있습니다.
리터럴 값 사용(Spark 1.3 )
이 문제를 해결하려면 lit를 사용하여 원하는 값의 리터럴 표현을 만듭니다.
from pyspark.sql.functions import lit df.withColumn('new_column', lit(10))
복잡한 열 만들기(Spark 1.4 )
더 복잡한 열 유형의 경우 , 배열, 구조체 또는 맵과 같은 적절한 함수를 사용합니다.
from pyspark.sql.functions import array, struct df.withColumn('array_column', array(lit(1), lit(2))) df.withColumn('struct_column', struct(lit('foo'), lit(1)))
Typed Literals(Spark 2.2)
Spark 2.2에서는 typedLit을 도입하여 다음을 지원합니다. 시퀀스, 맵 및 튜플:
import org.apache.spark.sql.functions.typedLit df.withColumn("some_array", typedLit(Seq(1, 2, 3)))
사용자 정의 함수(UDF) 사용
또는 상수 값을 반환하는 UDF를 생성합니다.
from pyspark.sql import functions as F def constant_column(value): def udf(df): return [value for _ in range(df.count())] return F.udf(udf) df.withColumn('constant_column', constant_column(10))
참고:
이러한 메소드는 UDF 또는 SQL 함수에 상수 인수를 전달하는 데에도 사용할 수 있습니다.
위 내용은 Spark DataFrame에 상수 열을 추가하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!