Apache Spark では、生の SQL または Spark 1.5.0 で導入された DataFrame API を使用して DataFrame 内の列を連結できます。 .
生の SQL を使用して列を連結するには、CONCAT 関数を使用します。
Python の場合:
df = sqlContext.createDataFrame([("foo", 1), ("bar", 2)], ("k", "v")) df.registerTempTable("df") sqlContext.sql("SELECT CONCAT(k, ' ', v) FROM df")
でScala:
import sqlContext.implicits._ val df = sc.parallelize(Seq(("foo", 1), ("bar", 2))).toDF("k", "v") df.registerTempTable("df") sqlContext.sql("SELECT CONCAT(k, ' ', v) FROM df")
Spark 1.5.0 以降、DataFrame API:concat
関数を使用できます。 🎜>でPython:
from pyspark.sql.functions import concat, col, lit df.select(concat(col("k"), lit(" "), col("v")))
Scala の場合:
import org.apache.spark.sql.functions.{concat, lit} df.select(concat($"k", lit(" "), $"v"))
concat_ws もあります最初の文字列区切り文字を受け取る関数引数:
以上がApache Spark DataFrame で列を連結するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。