我有一个很大的csv文件(aprx。1GB),我想通过以下方式转换为json文件:
csv文件具有以下结构:
标题:tid;inkey;outkey;value
价值观:
tid1;inkey1;outkey1;value1
tid1;inkey2;outkey2;value2
tid2;inkey2;outkey3;value2
tid2;inkey4;outkey3;value2
等等
我们的想法是将这个csv转换成具有以下结构的json,基本上是按“tid”分组:
^{pr2}$我可以想象如何使用普通的python dict和list,但是我的问题是我必须处理大量的数据。我想熊猫能帮上忙,但我对这个工具还是很困惑。在
可以将Pandas与
groupby
和字典理解一起使用:首先,您需要使用^{cd1>}并将csv读入数据帧。假设csv保存在名为^{{cd2>}的文件中,然后调用
然后,您需要将此数据帧转换为指定的表单。下面的调用将将其转换为具有指定结构的^{cd3>}
^{pr2}$现在,如果您想,可以将其导出到^{cd4>}文件
^{pr3}$我认为对于标准的Python数据结构,比如
defaultdict
,这应该是直接的。除非内存非常有限,否则我看不出1gb文件使用直接方法会有问题的原因。在类似(未测试):
也许有一种更快或更高效的方法来处理Pandas或其他人的问题,但是简单和零依赖性会有很长的路要走。在
相关问题 更多 >
编程相关推荐