如何在数据帧中应用groupBy而不删除Pyspark中notgrouped实例的其他列？

1条回答

网友

1楼 · 发布于 2024-04-26 07:45:22

from pyspark.sql import functions as f
from pyspark.sql import *

spark = SparkSession.builder.appName('MyApp').getOrCreate()

df = spark.createDataFrame([('a', 'a', 3), ('a', 'c', 5), ('b', 'a', 4), ('c', 'a', 2), ('a', 'a', 9), ('b', 'a', 9)],
                           ('attr1', "attr2", "attr3"))
df = df.withColumn('count', f.count('attr3').over(Window().partitionBy('attr1', 'attr2'))).cache()

输出：

^{pr2}$

以及

an_independent_dataframe = df.filter(df['count'] > 1).groupBy('attr1', 'attr2').sum('attr3')
+  -+  -+     +                                                        
|attr1|attr2|sum(attr3)|
+  -+  -+     +
|    b|    a|        13|
|    a|    a|        12|
+  -+  -+     +


another_dataframe = df.filter(df['count'] == 1).select('attr1', "attr2", "attr3")
+  -+  -+  -+
|attr1|attr2|attr3|
+  -+  -+  -+
|    a|    c|    5|
|    c|    a|    2|
+  -+  -+  -+

编程相关推荐

java使用不安全的方法复制整个C结构？
java JavaFx表格视图滚动错误
java应该向应用服务器或数据库添加逻辑吗
java小程序参数标记的用途是什么？
扩展AbstractTestNGSpringContextTests时，java Autowired spring依赖项在抽象基类中始终为空
java1。4关于java版本1.3到1.4
java MVC循环依赖
Java中的oauth电子邮件同步
java Facebook/Parse登录行为异常：代理应用程序尚未安装
java JPA不持久化对象J2EE

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何在数据帧中应用groupBy而不删除Pyspark中notgrouped实例的其他列？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >