基于日期列使用pysp拆分部分文件

2024-05-23 19:27:58 发布

您现在位置：Python中文网/ 问答频道 /正文

1354

网友

男 | 程序猿一只，喜欢编程写python代码。

我有200 csv部分文件，它们按年份从2012年到2018年分开。我还想根据使用pyspark的日期列拆分csv文件。想知道一种有效的方法来实现这一点，因为csv将包含数百万行。在

我目前的做法是 -将2012年的所有csv文件读入数据帧 -然后在365天的时间里，我循环上述数据帧，然后按日期将内容写入csv。在

有没有其他有效的方法来实现这个pyspark。在

我把样本数据放在下面：

> 1234|2012-01-01|abc|def|455 
> 
> 1278|2012-04-05|duuj|dea|457
> 
> 9998|2012-05-09|dimd|ase|759
> 
> 8892|2012-01-01|eedbnd|ss|378
> 
> 178|2012-04-05|dswuj|ada|47
> 
> 278|2012-04-05|d32j|d12a|421

我需要将这些数据写入3个单独的csv文件，其中包含2012-01-01、2012-04-05和2012-05-09的数据

Tags：文件 csv 数据方法内容 def 时间 pyspark

1条回答

网友

1楼 · 发布于 2024-05-23 19:27:58

样本数据中有3个日期：01-01、04-05、05-09

def fn(dt):
  return hash(dt)

创建一个key，value对，key是日期

^{pr2}$

生成密钥的哈希并将其传递给partitionBy

^{3}$

现在应该可以看到3个部分文件，每个部分都有特定的日期。在

基于日期列使用pysp拆分部分文件

相关问题更多 >

编程相关推荐

热门问题

热门文章

基于日期列使用pysp拆分部分文件

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >