在 Apache Spark Join 中包含空值
Apache Spark 的默认联接行为会排除具有空值的行,这对需要保存这些价值观。本文通过解释如何在 Apache Spark 连接操作中包含空值来解决此问题。
默认 Spark 行为
默认情况下,Spark 执行内部联接,这会导致消除连接条件中涉及的任一列中具有空值的行。为了说明这一点,请考虑以下示例:
val numbersDf = Seq( ("123"), ("456"), (null), ("") ).toDF("numbers") val lettersDf = Seq( ("123", "abc"), ("456", "def"), (null, "zzz"), ("", "hhh") ).toDF("numbers", "letters") val joinedDf = numbersDf.join(lettersDf, Seq("numbers"))
joinedDf.show() 的输出如下所示:
+-------+-------+ |numbers|letters| +-------+-------+ | 123| abc| | 456| def| | | hhh| +-------+-------+
正如预期的那样,在numberDf 的“numbers”列从连接结果中排除。
包括 Null Values
Spark 通过空安全等式运算符提供了解决此问题的方法。通过使用以下代码,可以将空值包含在联接操作中:
numbersDf .join(lettersDf, numbersDf("numbers") <=> lettersDf("numbers")) .drop(lettersDf("numbers"))
此修改后的联接操作会产生以下输出,其中现在包括先前排除的具有空值的行:
+-------+-------+ |numbers|letters| +-------+-------+ | 123| abc| | 456| def| | null| zzz| | | hhh| +-------+-------+
需要注意的是,在 1.6 之前的 Spark 版本中应谨慎使用此空安全相等运算符,因为它需要昂贵的笛卡尔
Spark 2.3.0 及更高版本
在 Spark 2.3.0 及更高版本中,PySpark 中可以使用 Column.eqNullSafe 方法,而 %=< SparkR 中可以使用 ;=>% 运算符来达到相同的结果。此外,Spark 2.2.0 中可以使用 SQL 语法 IS NOT DISTINCT FROM 以及 DataFrame API 在连接操作中包含空值。
以上是如何在 Apache Spark 连接中包含空值?的详细内容。更多信息请关注PHP中文网其他相关文章!