我有两个CSV文件,我想合并。对于熊猫,我会使用:
pd.merge(df1,df2, how='left', left_on='ST_LOGINID', right_on='LOGINID')
但是panda在执行此操作时内存不足(“MemoryError:”),不过在返回错误之前,我的RAM使用量仅从4GB的1.9gb增加到2.2GB。在
因此,我正在寻找以下任一解决方案:
1) 一种在不将文件加载到内存的情况下执行这种合并/联接操作的方法
2) 一种方法可以让熊猫使用更多的内存,因为似乎有足够的内存可用。在
Tags:
尝试csvkit:
首次安装时:
然后:
^{pr2}$如果你有大量的CSV数据,NYSOL's mcmd是最好的。在
它跑得很快!在
查看更多详细信息here。在
相关问题 更多 >
编程相关推荐