基于日期列使用pysp拆分部分文件

2024-05-23 19:27:58 发布

您现在位置:Python中文网/ 问答频道 /正文

我有200 csv部分文件,它们按年份从2012年到2018年分开。我还想根据使用pyspark的日期列拆分csv文件。想知道一种有效的方法来实现这一点,因为csv将包含数百万行。在

我目前的做法是 -将2012年的所有csv文件读入数据帧 -然后在365天的时间里,我循环上述数据帧,然后按日期将内容写入csv。在

有没有其他有效的方法来实现这个pyspark。在

我把样本数据放在下面:

> 1234|2012-01-01|abc|def|455 
> 
> 1278|2012-04-05|duuj|dea|457
> 
> 9998|2012-05-09|dimd|ase|759
> 
> 8892|2012-01-01|eedbnd|ss|378
> 
> 178|2012-04-05|dswuj|ada|47
> 
> 278|2012-04-05|d32j|d12a|421

我需要将这些数据写入3个单独的csv文件,其中包含2012-01-01、2012-04-05和2012-05-09的数据


Tags: 文件csv数据方法内容def时间pyspark
1条回答
网友
1楼 · 发布于 2024-05-23 19:27:58

样本数据中有3个日期:01-01、04-05、05-09

def fn(dt):
  return hash(dt)

创建一个key,value对,key是日期

^{pr2}$

生成密钥的哈希并将其传递给partitionBy

^{3}$

现在应该可以看到3个部分文件,每个部分都有特定的日期。在

相关问题 更多 >