替换大txt文件中的字符串时绕过内存错误

import os didi = self.lineEdit.text() for filename in os.listdir(didi): if filename.endswith(".txt"): filepath = os.path.join(didi, filename) with open(filepath, errors='ignore') as file: s = file.read() s = s.replace('| |', '|') with open(filepath, "w") as file: file.write(s)

2条回答

网友

1楼 · 编辑于 2024-05-15 09:16:08

请尝试以下代码：

chunk_size = 5000
buffer = ""
i = 0

with open(fileoutpath, 'a') as fout:
    with open(fileinpath, 'r') as fin:
        for line in fin:
            buffer += line.replace('| |', '|')
            i+=1
            if i == chunk_size:
                    fout.write(buffer)
                    i=0
                    buffer = ""
    if buffer:
        fout.write(buffer)
        i=0
        buffer = ""

此代码在内存中一次读取一行。你知道吗

它将结果存储在buffer中，一次最多包含chunk_size行，然后将结果保存到文件并清除buffer。一直到文件的结尾。在读取循环结束时，如果缓冲区包含行，则将其写入磁盘。你知道吗

这样，除了检查内存中的行数外，还可以检查磁盘写入数。每次读一行时都写入文件可能不是一个好主意，因为chunk_size太大了。由您自己来找到适合您的问题的chunk_size值。你知道吗

注意：您可以使用open()缓冲参数来获得相同的结果。在documentation中查找所有内容。但逻辑非常相似。你知道吗

网友

2楼 · 编辑于 2024-05-15 09:16:08

试着逐行读取文件，而不是一大块。即

with open(writefilepath, "w", errors='ignore') as filew:
    with open(readfilepath, "r", errors='ignore') as filer:
       for line in filer:
           print("Line {}: {}".format(cnt, line.strip()))
           line = line.replace('| |', '|')
           filew.write(line)

相关问题更多 >

编程相关推荐

热门问题

热门文章