Python:当写入一个大文件时,保持文件打开,或者根据需要打开并附加到文件中?

2024-04-29 03:31:19 发布

您现在位置:Python中文网/ 问答频道 /正文

我想知道如何最好地处理用python编写大文件。

我的python代码多次循环运行外部程序(古代Fortran,输入文件格式怪异),读取其输出(单行文件)执行一些非常简单的处理,并写入编译后的输出文件。外部程序执行速度快(大大低于1秒)。

import subprocess as sp

f_compiled_out = open("compiled.output", "w") 

for i in range(len(large_integer)):

  write_input_for_legacy_program = prepare_input()

  sp.call(["legacy.program"])

  with open("legacy.output", "r") as f:
    input = f.readline()

  output = process(input)

  f_compiled_out.write(output)


close(f_compiled_out)

我可以想到三个选项来生成编译后的输出文件。

  1. 我已经在做什么了。

  2. 在主循环的每个循环上使用with open("comiled.output", "a") as f: f.write(output)打开已编译的

  3. 使用awk进行简单的处理,并将输出分类到“compiled.output”结尾。

那么,(1)保持一个大文件的打开并将其写入到文件的末尾,与(2)每次写入时打开并附加到文件,与(3)使用awk进行处理和cat建立“compiled.output”的开销是多少呢。

在任何阶段,整个输出都不需要在内存中。

如果有人能看到任何其他明显的事情,会减缓这一速度,因为N}u循环变大,这也将是可怕的!


Tags: 文件forinputoutputaswithlegacyopen
1条回答
网友
1楼 · 发布于 2024-04-29 03:31:19

打开和关闭文件肯定要付出代价。然而,如果你的遗留程序需要一秒或更多的时间来响应,你可能不会注意到。

def func1():
    for x in range(1000):
        x = str(x)
        with open("test1.txt", "a") as k:
            k.write(x)

1 loops, best of 3: 2.47 s per loop

def func2():
    with open("test2.txt", "a") as k:
        for x in range(1000):
            x = str(x)
            k.write(x)

100 loops, best of 3: 6.66 ms per loop

但是,如果你的文件真的很大,它会变慢:(800+mb)

def func3(file):
    for x in range(10):
        x = str(x)
        with open(file, "a") as k:
            k.write(x)

12kb文件:

10 loops, best of 3: 33.4 ms per loop

800mb以上文件:

1 loops, best of 3: 24.5 s per loop

保持文件打开主要会消耗内存。

我建议使用SQlite来存储数据。

相关问题 更多 >