2024-04-18 23:45:18 发布
网友
我有一个有100行[姓名,年龄,日期,小时]的数据帧。我需要用不同的日期值对这个数据帧进行分区。假设这100行中有20个不同的日期值,那么我需要生成20个并行配置单元查询,其中每个配置单元QL将用一个配置单元表连接这些分区。配置单元表-[dept,cose,date]按日期字段分区。在
配置单元表很大,因此我需要将这些连接优化为多个较小的连接,然后聚合这些结果。关于如何实现这一点有什么建议吗?在
您可以在单个查询中执行此操作。在date和join上对df进行分区。在join-broadcast期间,您将看到第一个具有小数据(约10MB)的表。给你示例:-在
df3 = df1.repartition("date").join( F.broadcast(df2.repartition("date")), "date" ) #df2 is your dataframe smaller dataframe in your case it is name, age, date, ,hour. #Now perform any operation on df3
您可以在单个查询中执行此操作。在date和join上对df进行分区。在join-broadcast期间,您将看到第一个具有小数据(约10MB)的表。给你示例:-在
相关问题 更多 >
编程相关推荐