我有200 csv
部分文件,它们按年份从2012年到2018年分开。我还想根据使用pyspark
的日期列拆分csv
文件。想知道一种有效的方法来实现这一点,因为csv
将包含数百万行。在
我目前的做法是
-将2012年的所有csv
文件读入数据帧
-然后在365天的时间里,我循环上述数据帧,然后按日期将内容写入csv。在
有没有其他有效的方法来实现这个pyspark。在
我把样本数据放在下面:
> 1234|2012-01-01|abc|def|455
>
> 1278|2012-04-05|duuj|dea|457
>
> 9998|2012-05-09|dimd|ase|759
>
> 8892|2012-01-01|eedbnd|ss|378
>
> 178|2012-04-05|dswuj|ada|47
>
> 278|2012-04-05|d32j|d12a|421
我需要将这些数据写入3个单独的csv文件,其中包含2012-01-01、2012-04-05和2012-05-09的数据
样本数据中有3个日期:01-01、04-05、05-09
创建一个key,value对,key是日期
^{pr2}$生成密钥的哈希并将其传递给partitionBy
^{3}$现在应该可以看到3个部分文件,每个部分都有特定的日期。在
相关问题 更多 >
编程相关推荐