PySpark: 벡터를 열로 분할
PySpark에서는 벡터 열이 있는 DataFrame을 접할 수 있으며 이를 여러 개로 분할해야 할 수도 있습니다. 열(각 차원당 하나씩) 이를 달성하는 방법은 다음과 같습니다.
Spark >= 3.0.0
Spark 3.0.0부터 벡터 구성 요소를 추출하는 편리한 방법은 vector_to_array 함수를 사용하는 것입니다. :
<code class="python">df = df.withColumn("xs", vector_to_array("vector")) # Pick the first three dimensions for illustration result = df.select(["word"] + [col("xs")[i] for i in range(3)])</code>
Spark < 3.0.0
방법 1:RDD 변환
한 가지 접근 방식은 DataFrame을 RDD로 변환하고 벡터 구성 요소를 수동으로 추출하는 것입니다.
<code class="python">rdd = df.rdd.map(lambda row: (row.word, ) + tuple(row.vector.toArray().tolist())) result = rdd.toDF(["word"])</code>
방법 2: UDF 생성
또는 사용자 정의 함수(UDF)를 생성하여 벡터 열에 적용할 수도 있습니다.
<code class="python">@udf(ArrayType(DoubleType())) def to_array(vector): return vector.toArray().tolist() result = df.withColumn("xs", to_array(col("vector"))).select(["word"] + [col("xs")[i] for i in range(3)])</code>
위 내용은 PySpark에서 벡터 열을 개별 열로 분할하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!