如何正确使用 IN 子句来过滤 Pyspark DataFrame？-mysql教程-PHP中文网

如何正确使用 IN 子句来过滤 Pyspark DataFrame？

Susan Sarandon

发布： 2024-12-27 18:31:20

原创

681 人浏览过

How to Correctly Use the IN Clause for Filtering Pyspark DataFrames?

使用类似 SQL 的 IN 子句过滤 Pyspark DataFrame：解决语法错误

尝试使用 SQL 过滤 Pyspark DataFrame 时 -与 IN 子句一样，如果 IN 子句值未用单引号引起来，则可能会遇到语法错误。要解决此问题，请在 SQL 查询中将值作为字符串显式传递。

解决方案：

不要直接将值指定为元组，而是使用字符串格式将这些值合并到 SQL 查询中。例如：

1	`df = sqlc.sql("SELECT * FROM my_df WHERE field1 IN {}".format(str((1, 2, 3))))`

登录后复制

此方法可确保在 SQL 环境上下文中计算值并由 SQL 解析器正确处理。

替代方法：使用 Spark DataFrame API

Spark 还提供了一种更方便的方法，通过其 Dataframe API 使用 IN 子句来过滤 DataFrame。这种方法通常因其简单性和表现力而受到青睐。

from pyspark.sql.functions import col
 
df.where(col("field1").isin((1, 2, 3))).count()

登录后复制

这里，isin() 函数采用元组或数组作为参数，并检查 field1 列中的每个值是否存在于输入列表中。这种方法既简洁又提供了一系列强大的数据操作操作。

以上是如何正确使用 IN 子句来过滤 Pyspark DataFrame？的详细内容。更多信息请关注PHP中文网其他相关文章！