Comment diviser une colonne vectorielle en lignes dans PySpark ?

Patricia Arquette
Libérer: 2024-10-31 20:10:01
original
415 Les gens l'ont consulté

How to Split a Vector Column into Rows in PySpark?

Diviser une colonne vectorielle en lignes dans PySpark

Dans PySpark, diviser une colonne contenant des valeurs vectorielles en colonnes distinctes pour chaque dimension est une pratique courante tâche. Cet article vous guidera à travers différentes approches pour y parvenir :

Spark 3.0.0 et versions ultérieures

Spark 3.0.0 a introduit la fonction vector_to_array, simplifiant ce processus :

<code class="python">from pyspark.ml.functions import vector_to_array

df = df.withColumn("xs", vector_to_array("vector"))</code>
Copier après la connexion

Vous pouvez ensuite sélectionner les colonnes souhaitées :

<code class="python">df.select(["word"] + [col("xs")[i] for i in range(3)])</code>
Copier après la connexion
Copier après la connexion

Spark Less Than 3.0.0

Approche 1 : Conversion vers RDD

<code class="python">def extract(row):
    return (row.word, ) + tuple(row.vector.toArray().tolist())

df.rdd.map(extract).toDF(["word"])  # Vector values will be named _2, _3, ...</code>
Copier après la connexion

Approche 2 : Utilisation d'un UDF

<code class="python">from pyspark.sql.functions import udf, col
from pyspark.sql.types import ArrayType, DoubleType

def to_array(col):
    def to_array_(v):
        return v.toArray().tolist()
    return udf(to_array_, ArrayType(DoubleType())).asNondeterministic()(col)

df = df.withColumn("xs", to_array(col("vector")))</code>
Copier après la connexion

Sélectionnez les colonnes souhaitées :

<code class="python">df.select(["word"] + [col("xs")[i] for i in range(3)])</code>
Copier après la connexion
Copier après la connexion

Par en mettant en œuvre l'une de ces méthodes, vous pouvez diviser efficacement une colonne vectorielle en colonnes individuelles, ce qui facilite l'utilisation et l'analyse de vos données.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Derniers articles par auteur
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal
À propos de nous Clause de non-responsabilité Sitemap
Site Web PHP chinois:Formation PHP en ligne sur le bien-être public,Aidez les apprenants PHP à grandir rapidement!