我有三个文件,每个文件包含近30万条记录。我们已经编写了一个python脚本,用一些业务逻辑来处理这些文件,并且能够成功地创建输出文件。这个过程在5分钟内完成。你知道吗
我使用相同的脚本来处理数据量大的文件(所有三个输入文件都包含大约3000万条记录)。现在的处理需要几个小时,而且运行了很长时间。你知道吗
因此,我正在考虑根据唯一id的最后两位数字将文件分成100个小块,并对其进行并行处理。是否有任何数据管道包可用于执行此操作?你知道吗
顺便说一句,我正在我的VDI机器上运行这个过程。你知道吗
Tags:
我不确定是否有这样的API用于功能。但是您可以尝试多处理和多线程来处理大量数据
相关问题 更多 >
编程相关推荐