PySpark遍历数据帧的每一行并运行配置单元查询 - 问答 - Python中文网

PySpark遍历数据帧的每一行并运行配置单元查询

2024-04-18 23:45:18 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我有一个有100行[姓名，年龄，日期，小时]的数据帧。我需要用不同的日期值对这个数据帧进行分区。假设这100行中有20个不同的日期值，那么我需要生成20个并行配置单元查询，其中每个配置单元QL将用一个配置单元表连接这些分区。配置单元表-[dept，cose，date]按日期字段分区。在

配置单元表很大，因此我需要将这些连接优化为多个较小的连接，然后聚合这些结果。关于如何实现这一点有什么建议吗？在

Tags：数据 date 建议单元分区姓名小时 ql

1条回答

网友

1楼 · 发布于 2024-04-18 23:45:18

您可以在单个查询中执行此操作。在date和join上对df进行分区。在join-broadcast期间，您将看到第一个具有小数据（约10MB）的表。给你示例：-在

df3 = df1.repartition("date").join(
F.broadcast(df2.repartition("date")), 
"date"
)
#df2 is your dataframe smaller dataframe in your case it is name, age, date, ,hour.
#Now perform any operation on df3

相关问题更多 >

编程相关推荐

热门问题

热门文章