Spark DataFrame에 상수 열을 추가하는 방법은 무엇입니까?-파이썬 튜토리얼-php.cn

Spark DataFrame에 상수 열을 추가하는 방법은 무엇입니까?

Linda Hamilton

풀어 주다： 2024-11-07 00:31:02

원래의

547명이 탐색했습니다.

How to Add a Constant Column to a Spark DataFrame?

Spark DataFrame에서 상수 열 생성

모든 행에 적용되는 임의의 값을 사용하여 Spark DataFrame에 상수 열을 추가하면 다음을 수행할 수 있습니다. 여러 가지 방법으로 달성됩니다. 이러한 목적으로 고안된 withColumn 메서드는 두 번째 인수로 직접 값을 제공하려고 할 때 오류가 발생할 수 있습니다.

리터럴 값 사용(Spark 1.3 )

이 문제를 해결하려면 lit를 사용하여 원하는 값의 리터럴 표현을 만듭니다.

from pyspark.sql.functions import lit

df.withColumn('new_column', lit(10))

로그인 후 복사

복잡한 열 만들기(Spark 1.4 )

더 복잡한 열 유형의 경우 , 배열, 구조체 또는 맵과 같은 적절한 함수를 사용합니다.

from pyspark.sql.functions import array, struct

df.withColumn('array_column', array(lit(1), lit(2)))
df.withColumn('struct_column', struct(lit('foo'), lit(1)))

로그인 후 복사

Typed Literals(Spark 2.2)

Spark 2.2에서는 typedLit을 도입하여 다음을 지원합니다. 시퀀스, 맵 및 튜플:

import org.apache.spark.sql.functions.typedLit

df.withColumn("some_array", typedLit(Seq(1, 2, 3)))

로그인 후 복사

사용자 정의 함수(UDF) 사용

또는 상수 값을 반환하는 UDF를 생성합니다.

from pyspark.sql import functions as F

def constant_column(value):
    def udf(df):
        return [value for _ in range(df.count())]
    return F.udf(udf)

df.withColumn('constant_column', constant_column(10))

로그인 후 복사

참고:

이러한 메소드는 UDF 또는 SQL 함수에 상수 인수를 전달하는 데에도 사용할 수 있습니다.

위 내용은 Spark DataFrame에 상수 열을 추가하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!