意外性能下降

f = open(filename, "rt") line = "" buffer = "blub" while buffer != "": buffer = f.read(10000) i = buffer.find('#') if i != -1: # end of line found line += buffer[:i] ProcessLine(line) line = buffer[i+1:] # skip the '#' else: # still reading current line line += buffer

while buffer != "": buffer = f.read(10000) i = buffer.find('#') while i != -1: pixels += 1 line += buffer[:i] buffer = buffer[i+1:] ProcessLine(line) i = buffer.find('#') line += buffer

2条回答

网友

1楼 · 编辑于 2024-05-14 01:24:20

您的第二个版本不仅工作较慢，而且工作不正确。你知道吗

在第一个版本中，您用赋值（line = buffer[i+1:]）重置line，而在第二个版本中，您只附加到line。结果，在第二个版本中，line包含文件的全部内容，而不是#符号。你知道吗

通过在处理代码后立即清除line来修复代码：

while buffer != "":
    buffer = f.read(10000)
    i = buffer.find('#')
    while i != -1:
        pixels += 1
        line += buffer[:i]
        buffer = buffer[i+1:]
        ProcessLine(line)
        line = ""               # sic!
        i = buffer.find('#')
    line += buffer

网友

2楼 · 编辑于 2024-05-14 01:24:20

如果我正确理解了您要做的事情，那么两个版本的代码都是错误的。就像@Leon在第二个版本中说的，你在ProcessLine(line)之后缺少了line = ""，而在第一个版本中，只有第一行是正确的，如果行比buffer短，你只在line += buffer[:i]中使用了buffer的第一部分，但是问题出在这一行line = buffer[i+1:]，所以如果你的line有1000个字符长，而且buffer是10000个字符长，那么当您使用line += buffer[:i]时，您的行将是9000个字符长，可能包含多行。从阅读：

这样做相当有效，但是，可能会发生这样的情况，即一行比缓冲区短，这会导致我跳过一行

我想你已经意识到了这一点，但我之所以要写得详细，是因为这也是为什么你的第一个版本工作得更快的原因。你知道吗

在解释了这一点之后，我认为最好的方法是读取孔文件，然后拆分文本以获得行，因此您的代码如下所示：

f = open('textfile.txt', "rt")
buffer = f.read()
f.close()
l = buffer.split('#')

然后你就可以用这样的方法：

for line in l:
    ProcessLine(line)

要得到listl，我只用了不到2秒钟的时间。你知道吗

PS：用记事本打开大文件（比如250MB）应该不会有问题，我甚至打开了500MB的文件。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章