PySpark为列agg outpu分配名称

import pyspark import pyspark.sql.functions as sf import pyspark.sql.types as sparktypes import datetime sc = pyspark.SparkContext(appName="test") sqlcontext = pyspark.SQLContext(sc) rdd = sc.parallelize([('a',datetime.datetime(2014, 1, 9, 0, 0)), ('b',datetime.datetime(2014, 1, 27, 0, 0)), ('c',datetime.datetime(2014, 1, 31, 0, 0))]) testdf = sqlcontext.createDataFrame(rdd, ["id", "date"]) print(testdf.show()) print(testdf.printSchema())

1条回答

网友

1楼 · 发布于 2024-04-19 22:49:30

你是说这个吗？在

max_date = testdf.agg(sf.max(sf.col('date')).alias("newName")).collect()

还有更好的方法。不是真的。Collect会带来一个行的列表，您需要告诉您需要哪一列，以便使用：

^{pr2}$

你不能再比这短了。。。在

编程相关推荐

在Maven的其他模块中看不到依赖模块中的java更改
http使用Java提交HTML表单数据，以检索从jsp应用程序下载的内容
因此，java JPA直接获取一个映射，而不是对象列表
java Dagger2：如何在多态性期间注入成员变量？
java如何在playFramework中重用控制器类的功能
java JavaMail到minecraft
java如何在RecyclerView滚动上下载更多Firebase对象？
PDFBOX org出现java Proc Groovy错误。阿帕奇。pdfbox。余弦。COSDocument finalize警告：警告：您没有关闭PDF文档
用java将英语翻译成本地语言
javascript不使用servlet将JSON对象传递给Java类

相关问题更多 >

编程相关推荐

热门问题

热门文章