Python writelines（）和write（）时间差很大

with open(inputPath, 'r+') as myRead: my_list = myRead.readlines() new_my_list = clean_data(my_list) with open(outPath, 'w+') as myWrite: tempT = time.time() myWrite.writelines('\n'.join(new_my_list) + '\n') print(time.time() - tempT) print(inputPath, 'Cleaning Complete.')

with open(inputPath, 'r+') as myRead: my_list = myRead.readlines() new_my_list = clean_data(my_list) with open(outPath, 'w+') as myWrite: tempT = time.time() myWrite.write('\n'.join(new_my_list) + '\n') print(time.time() - tempT) print(inputPath, 'Cleaning Complete.')

3条回答

网友

1楼 · 编辑于 2024-04-19 09:38:06

“write（arg）”方法需要字符串作为其参数。所以一旦它调用，它就会直接写。这就是它更快的原因。如果您使用的是writelines()方法，则它需要字符串列表作为迭代器。因此，即使您正在向writelines发送数据，它也假设它得到了迭代器，并试图对其进行迭代器。因此，由于它是一个迭代器，因此需要一些时间来迭代和编写它。

明白了吗？

网友

2楼 · 编辑于 2024-04-19 09:38:06

作为Martijn答案的补充，最好的方法是首先避免使用join构建列表

只需将生成器理解传递给writelines，在末尾添加新行：没有不必要的内存分配和循环（除了理解之外）

myWrite.writelines("{}\n".format(x) for x in my_list)

网友

3楼 · 编辑于 2024-04-19 09:38:06

file.writelines()需要字符串的iterable。然后继续循环并为iterable中的每个字符串调用file.write()。在Python中，该方法执行以下操作：

def writelines(self, lines)
    for line in lines:
        self.write(line)

您传入的是一个大字符串，字符串也是一个iterable字符串。迭代时，您将得到个字符，长度为1的字符串。所以实际上，您正在对len(data)进行单独的调用。这很慢，因为您一次只能构建一个字符的写缓冲区。

不要将单个字符串传递给file.writelines()。改为传入列表、元组或其他iterable。

可以通过在生成器表达式中添加换行符来发送单独的行，例如：

 myWrite.writelines(line + '\n' for line in new_my_list)

现在，如果您可以生成clean_data()a生成器，生成已清理的行，那么您可以从输入文件、通过数据清理生成器流式传输数据，并输出到输出文件，而无需使用比读写缓冲区所需更多的内存，而且无论需要多少状态来清理行：

with open(inputPath, 'r+') as myRead, open(outPath, 'w+') as myWrite:
    myWrite.writelines(line + '\n' for line in clean_data(myRead))

此外，我会考虑更新clean_data()以发出包含新行的行。

相关问题更多 >

编程相关推荐

热门问题

热门文章