在不减少行数的情况下对spark执行max（）操作

1条回答

网友

1楼 · 发布于 2024-04-24 11:07:10

创建数据帧：

from pyspark.sql import HiveContext
sqlContext = HiveContext(sc)

data = [
 (1, 'ACTION_1', 100),
 (1, 'ACTION_2', 101),
 (1, 'ACTION_3', 102),
 (2, 'ACTION_1', 100),
 (2, 'ACTION_2', 105),
 (2, 'ACTION_3', 102),
 (3, 'ACTION_1', 120),
 (3, 'ACTION_2', 111),
 (3, 'ACTION_3', 103)]

df = sqlContext.createDataFrame(data, ['customerid', 'action', 'actiontime'])
df.show()

在按客户id划分的窗口上使用max函数

from pyspark.sql import Window
from pyspark.sql.functions import max
w = Window.partitionBy(df.customerid)

df1 = df.withColumn('actiontime', max('actiontime').over(w))
df1.show()

根据以下条件过滤数据：

df2 = df1.where(df1.action == 'ACTION_2')
df2.show()
+     +    +     +
|customerid|  action|actiontime|
+     +    +     +
|         1|ACTION_2|       102|
|         3|ACTION_2|       120|
|         2|ACTION_2|       105|
+     +    +     +

编程相关推荐

java为什么我必须强制转换这个泛型类型？
如何使用Java查找、读取和显示文本文件中的行
java URL在标签后被剪切
java加速计+按钮
java J2ME应用程序选择性地在某些手机上工作
java如何在自定义对话框内的webview上加载完网页？
java IntelliJ结构化搜索和替换问题
java从现有项目创建新的本地回购
java如何在netbeans IDE上启用只读代码？
java表达式的类型必须是数组类型，但解析为双精度

相关问题更多 >

编程相关推荐

热门问题

热门文章

在不减少行数的情况下对spark执行max（）操作

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >