我已经从SPSS过渡到语法编写/数据管理,在那里我工作到python和pandas,以获得更高级别的功能和编程。问题是,将SPSS文件读入pandas太慢了。我处理更大的数据集(100万行或更多行,通常有100多列)。似乎有一些非常酷的插件可以加速处理CSV文件,比如Dask和Modin,但我认为这些插件不适用于SPSS文件。我想继续使用pandas,但我必须坚持使用SPSS文件格式(我工作的其他人都使用这种格式)
除了计算机升级和/或文件分块之外,有没有关于如何实现更快的数据处理的技巧
Tags:
您可以尝试并行读取文件:
例如,我有一个文件“big.sav”,它是294000行x 666列。使用pyreadstat.read_sav(这是pd.read_spss在后台使用的)读取文件需要115秒。通过并行化,我得到了29秒:
首先,我创建一个worker.py文件:
然后在主脚本中我有这样一个:
编辑:
您可以使用如下功能:
相关问题 更多 >
编程相关推荐