首页 > 数据库 > mysql教程 > 如何在 Spark DataFrame GroupBy 操作中保留附加列?

如何在 Spark DataFrame GroupBy 操作中保留附加列?

Susan Sarandon
发布: 2024-12-25 02:11:17
原创
592 人浏览过

How to Preserve Additional Columns in Spark DataFrame GroupBy Operations?

在 Spark DataFrame GroupBy 操作中保留附加列

在 Spark DataFrame groupBy 查询中,通常只检索与组相关的列和聚合。但是,在某些情况下,您可能打算保留组键和聚合函数结果之外的其他列。

考虑以下 groupBy 操作:

df.groupBy(df("age")).agg(Map("id" -> "count"))
登录后复制

此查询将返回一个 DataFrame只有两列:“age”和“count(id)”。如果您需要原始 DataFrame 中的其他列(例如“名称”),您可以使用多种方法。

方法 1:将聚合结果与原始表连接

一种方法是将 DataFrame 与聚合结果连接起来以检索丢失的列。例如:

val agg = df.groupBy(df("age")).agg(Map("id" -> "count"))
val result = df.join(agg, df("age") === agg("age"))
登录后复制

此技术保留了原始 DataFrame 中的所有列,但对于大型数据集效率可能较低。

方法 2:使用附加函数进行聚合(第一个/最后一个) )

您还可以使用其他聚合函数(例如第一个或最后一个)在聚合中包含非组列 结果。例如:

df.groupBy(df("age")).agg(Map("id" -> "count", "name" -> "first"))
登录后复制

这将返回一个包含三列的 DataFrame:“age”、“count(id)”和“first(name)”。

方法3:窗口函数Where过滤器

在某些情况下,您可以利用窗口函数与where过滤器相结合来实现所需的结果。然而,这种方法可能会对性能产生影响:

df.select(
  col("name"),
  col("age"),
  count("id").over(Window.partitionBy("age").rowsBetween(Window.unboundedPreceding, Window.currentRow))
).where(col("name").isNotNull)
登录后复制

通过采用这些技术,您可以在 Spark DataFrame 中执行 groupBy 操作时有效地保留额外的列,从而满足各种分析要求。

以上是如何在 Spark DataFrame GroupBy 操作中保留附加列?的详细内容。更多信息请关注PHP中文网其他相关文章!

来源:php.cn
本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
作者最新文章
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板