在Apache Spark 中,您可以使用原始SQL 或Spark 1.5.0 中引入的DataFrame API 連接DataFrame 中的列.
使用下列方式連接列原始SQL,使用 CONCAT 函數:
在 Python 中:
df = sqlContext.createDataFrame([("foo", 1), ("bar", 2)], ("k", "v")) df.registerTempTable("df") sqlContext.sql("SELECT CONCAT(k, ' ', v) FROM df")
在 Scala 中:
import sqlContext.implicits._ val df = sc.parallelize(Seq(("foo", 1), ("bar", 2))).toDF("k", "v") df.registerTempTable("df") sqlContext.sql("SELECT CONCAT(k, ' ', v) FROM df")
在 Scala 中:
使用資料框API從Spark 1.5.0 開始,您可以將
concatfrom pyspark.sql.functions import concat, col, lit df.select(concat(col("k"), lit(" "), col("v")))
在Python 中:
import org.apache.spark.sql.functions.{concat, lit} df.select(concat($"k", lit(" "), $"v"))
在Scala:
df.select(concat_ws("-", col("k"), col("v")))
以上是如何連接 Apache Spark DataFrame 中的欄位?的詳細內容。更多資訊請關注PHP中文網其他相關文章!