Apache Spark DataFrames에서 열 결합
Apache Spark는 DataFrame 내에서 열을 연결하기 위한 다양한 접근 방식을 제공합니다.
SQL CONCAT 함수 활용
직접 SQL 쿼리의 경우 Spark에 내장된 CONCAT
기능을 사용하면 열 병합이 쉬워집니다.
Python 일러스트레이션:
<code class="language-python">df = sqlContext.createDataFrame([("foo", 1), ("bar", 2)], ("k", "v")) df.registerTempTable("df") sqlContext.sql("SELECT CONCAT(k, ' ', v) FROM df")</code>
스칼라 일러스트레이션:
<code class="language-scala">import sqlContext.implicits._ val df = sc.parallelize(Seq(("foo", 1), ("bar", 2))).toDF("k", "v") df.registerTempTable("df") sqlContext.sql("SELECT CONCAT(k, ' ', v) FROM df")</code>
DataFrame API의 concat 기능 활용하기(Spark 1.5.0 )
DataFrame API는 이 작업을 위해 concat
함수를 제공합니다.
Python 일러스트레이션:
<code class="language-python">from pyspark.sql.functions import concat, col, lit df.select(concat(col("k"), lit(" "), col("v")))</code>
스칼라 일러스트레이션:
<code class="language-scala">import org.apache.spark.sql.functions.{concat, lit} df.select(concat($"k", lit(" "), $"v"))</code>
concat_ws 함수 사용
concat_ws
함수는 사용자 정의 구분 기호를 지정할 수 있는 이점을 제공합니다.
Python 일러스트레이션:
<code class="language-python">from pyspark.sql.functions import concat_ws, lit df.select(concat_ws(" ", col("k"), lit(" "), col("v")))</code>
스칼라 일러스트레이션:
<code class="language-scala">import org.apache.spark.sql.functions.{concat_ws, lit} df.select(concat_ws(" ", $"k", lit(" "), $"v"))</code>
이러한 기술을 사용하면 Apache Spark DataFrames 내에서 간단한 열 연결이 가능하므로 다양한 데이터 조작 작업에 매우 유용합니다.
위 내용은 Apache Spark DataFrame에서 열을 어떻게 연결할 수 있나요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!