PySpark遍历数据帧的每一行并运行配置单元查询

2024-04-18 23:45:18 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个有100行[姓名,年龄,日期,小时]的数据帧。我需要用不同的日期值对这个数据帧进行分区。假设这100行中有20个不同的日期值,那么我需要生成20个并行配置单元查询,其中每个配置单元QL将用一个配置单元表连接这些分区。配置单元表-[dept,cose,date]按日期字段分区。在

配置单元表很大,因此我需要将这些连接优化为多个较小的连接,然后聚合这些结果。关于如何实现这一点有什么建议吗?在


Tags: 数据date建议单元分区姓名小时ql
1条回答
网友
1楼 · 发布于 2024-04-18 23:45:18

您可以在单个查询中执行此操作。在date和join上对df进行分区。在join-broadcast期间,您将看到第一个具有小数据(约10MB)的表。给你示例:-在

df3 = df1.repartition("date").join(
F.broadcast(df2.repartition("date")), 
"date"
)
#df2 is your dataframe smaller dataframe in your case it is name, age, date, ,hour.
#Now perform any operation on df3  

相关问题 更多 >