PySpark에서 벡터 열을 개별 열로 분할하는 방법은 무엇입니까?-파이썬 튜토리얼-php.cn

PySpark에서 벡터 열을 개별 열로 분할하는 방법은 무엇입니까?

Mary-Kate Olsen

풀어 주다： 2024-11-03 12:25:29

원래의

1101명이 탐색했습니다.

How to Split a Vector Column into Individual Columns in PySpark?

PySpark: 벡터를 열로 분할

PySpark에서는 벡터 열이 있는 DataFrame을 접할 수 있으며 이를 여러 개로 분할해야 할 수도 있습니다. 열(각 차원당 하나씩) 이를 달성하는 방법은 다음과 같습니다.

Spark >= 3.0.0

Spark 3.0.0부터 벡터 구성 요소를 추출하는 편리한 방법은 vector_to_array 함수를 사용하는 것입니다. :

<code class="python">df = df.withColumn("xs", vector_to_array("vector"))

# Pick the first three dimensions for illustration
result = df.select(["word"] + [col("xs")[i] for i in range(3)])</code>

로그인 후 복사

Spark < 3.0.0

방법 1:RDD 변환

한 가지 접근 방식은 DataFrame을 RDD로 변환하고 벡터 구성 요소를 수동으로 추출하는 것입니다.

<code class="python">rdd = df.rdd.map(lambda row: (row.word, ) + tuple(row.vector.toArray().tolist()))
result = rdd.toDF(["word"])</code>

로그인 후 복사

방법 2: UDF 생성

또는 사용자 정의 함수(UDF)를 생성하여 벡터 열에 적용할 수도 있습니다.

<code class="python">@udf(ArrayType(DoubleType()))
def to_array(vector):
    return vector.toArray().tolist()

result = df.withColumn("xs", to_array(col("vector"))).select(["word"] + [col("xs")[i] for i in range(3)])</code>

로그인 후 복사

위 내용은 PySpark에서 벡터 열을 개별 열로 분할하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!