Diviser une colonne vectorielle en lignes dans PySpark
Dans PySpark, diviser une colonne contenant des valeurs vectorielles en colonnes distinctes pour chaque dimension est une pratique courante tâche. Cet article vous guidera à travers différentes approches pour y parvenir :
Spark 3.0.0 et versions ultérieures
Spark 3.0.0 a introduit la fonction vector_to_array, simplifiant ce processus :
<code class="python">from pyspark.ml.functions import vector_to_array df = df.withColumn("xs", vector_to_array("vector"))</code>
Vous pouvez ensuite sélectionner les colonnes souhaitées :
<code class="python">df.select(["word"] + [col("xs")[i] for i in range(3)])</code>
Spark Less Than 3.0.0
Approche 1 : Conversion vers RDD
<code class="python">def extract(row): return (row.word, ) + tuple(row.vector.toArray().tolist()) df.rdd.map(extract).toDF(["word"]) # Vector values will be named _2, _3, ...</code>
Approche 2 : Utilisation d'un UDF
<code class="python">from pyspark.sql.functions import udf, col from pyspark.sql.types import ArrayType, DoubleType def to_array(col): def to_array_(v): return v.toArray().tolist() return udf(to_array_, ArrayType(DoubleType())).asNondeterministic()(col) df = df.withColumn("xs", to_array(col("vector")))</code>
Sélectionnez les colonnes souhaitées :
<code class="python">df.select(["word"] + [col("xs")[i] for i in range(3)])</code>
Par en mettant en œuvre l'une de ces méthodes, vous pouvez diviser efficacement une colonne vectorielle en colonnes individuelles, ce qui facilite l'utilisation et l'analyse de vos données.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!