Dalam Apache Spark, anda boleh menggabungkan lajur dalam DataFrame menggunakan sama ada SQL mentah atau DataFrame API yang diperkenalkan dalam Spark 1.5.0 .
Untuk gabungkan lajur menggunakan SQL mentah, gunakan fungsi CONCAT:
Dalam Python:
df = sqlContext.createDataFrame([("foo", 1), ("bar", 2)], ("k", "v")) df.registerTempTable("df") sqlContext.sql("SELECT CONCAT(k, ' ', v) FROM df")
Dalam Scala:
import sqlContext.implicits._ val df = sc.parallelize(Seq(("foo", 1), ("bar", 2))).toDF("k", "v") df.registerTempTable("df") sqlContext.sql("SELECT CONCAT(k, ' ', v) FROM df")
Sejak Spark 1.5.0, anda boleh menggunakan fungsi concat dengan API DataFrame:
Dalam Python:
from pyspark.sql.functions import concat, col, lit df.select(concat(col("k"), lit(" "), col("v")))
In Scala:
import org.apache.spark.sql.functions.{concat, lit} df.select(concat($"k", lit(" "), $"v"))
Terdapat juga fungsi concat_ws, yang mengambil pemisah rentetan sebagai hujah pertamanya:
df.select(concat_ws("-", col("k"), col("v")))
Atas ialah kandungan terperinci Bagaimana untuk Menggabungkan Lajur dalam Apache Spark DataFrame?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!