我想知道如何最好地处理用python编写大文件。
我的python代码多次循环运行外部程序(古代Fortran,输入文件格式怪异),读取其输出(单行文件)执行一些非常简单的处理,并写入编译后的输出文件。外部程序执行速度快(大大低于1秒)。
import subprocess as sp
f_compiled_out = open("compiled.output", "w")
for i in range(len(large_integer)):
write_input_for_legacy_program = prepare_input()
sp.call(["legacy.program"])
with open("legacy.output", "r") as f:
input = f.readline()
output = process(input)
f_compiled_out.write(output)
close(f_compiled_out)
我可以想到三个选项来生成编译后的输出文件。
我已经在做什么了。
在主循环的每个循环上使用with open("comiled.output", "a") as f: f.write(output)
打开已编译的
使用awk进行简单的处理,并将输出分类到“compiled.output”结尾。
那么,(1)保持一个大文件的打开并将其写入到文件的末尾,与(2)每次写入时打开并附加到文件,与(3)使用awk进行处理和cat
建立“compiled.output”的开销是多少呢。
在任何阶段,整个输出都不需要在内存中。
如果有人能看到任何其他明显的事情,会减缓这一速度,因为N}u循环变大,这也将是可怕的!
打开和关闭文件肯定要付出代价。然而,如果你的遗留程序需要一秒或更多的时间来响应,你可能不会注意到。
但是,如果你的文件真的很大,它会变慢:(800+mb)
12kb文件:
800mb以上文件:
保持文件打开主要会消耗内存。
我建议使用SQlite来存储数据。
相关问题 更多 >
编程相关推荐