首頁 > 後端開發 > Python教學 > 如何在 PySpark 中將向量列拆分為列?

如何在 PySpark 中將向量列拆分為列?

Susan Sarandon
發布: 2024-11-01 01:06:01
原創
1074 人瀏覽過

How to Split a Vector Column into Columns in PySpark?

使用PySpark 將向量列拆分為列

您有一個包含兩列的PySpark DataFrame:單字和向量,其中向量是VectorUDT 欄位。您的目標是將向量列拆分為多列,每列代表向量的一維。

解決方案:

Spark >= 3.0.0

在Spark 3.0.0以上版本使用vector_to_array函數要實現此目的:

這將建立名為word 和xs[0]、xs[1]、xs[2] 等的新列,表示原始向量的值。

火花

對於較舊的Spark 版本,您可以按照以下方法操作:

轉換為RDD 並提取

建立一個UDF:

兩種方法都會產生一個DataFrame,其中原始向量的每個維度都有單獨的列,從而更容易處理資料。

以上是如何在 PySpark 中將向量列拆分為列?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

來源:php.cn
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
作者最新文章
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板