python读取/迭代文件的速度是pypypy的两倍

NUM_ROWS = 10000000 FILENAME = "testing.txt" def create_file(): data = [] for x in range(NUM_ROWS): data.append("AA BB CC DD EE FF GG HH II JJ KK LL MM NN OO\n") with open(FILENAME, "w") as f: for d in data: f.write(d) f.close()

import datetime FILENAME = "testing.txt" start = datetime.datetime.now() with open(FILENAME) as f: for i, line in enumerate(f): data = line.split(" ") if data[0] != "AA": print(i, line) print(datetime.datetime.now() - start)

1条回答

网友

1楼 · 发布于 2024-04-25 23:08:55

问题已更新，因此我更新了我的答案：

与每次优化一样，您需要对每个零件进行轮廓分析。当然，您应该关注循环中的命令

我通过相同测试的解决方案（无需分析）是：

import datetime
FILENAME = "testing.txt"

start = datetime.datetime.now()
with open(FILENAME) as f:
    i = 0
    data = f.readline()
    while data:
        if not data.startswith('AA '):
            print(i, line)
        i += 1
        data = f.readline()

print(datetime.datetime.now() - start)

然而，这并不是@user1179317所期望的解决方案在更新的问题中@user1179317现在意识到读取文件数据块是一个问题

您可以尝试使用yield分块读取数据：

def read_in_chunks(file_object, chunk_size=1024):
    """generator to read file in chunks"""
    while True:
        data = file_object.read(chunk_size)
        if not data:
            break
        yield data


with open('big_file.data') as f:
    for piece in read_in_chunks(f):
        process_data(piece)

另一种选择是使用iter和辅助功能：

f = open('big_file.dat')
def read_chunk(chunk_size=1024):
    return f.read(chunk_size)

for piece in iter(read_chunk, ''):
    process_data(piece)

同样-这不是一个ready to use past & copy答案-您需要分析和测试，因为结果将取决于文件大小、可用ram、硬盘的块大小、IP数据包大小等

由于该操作是I/O绑定的，所以多线程方法可能是好的——您可以尝试在单独的线程中读取文件的下一个块

因此，您需要使用不同的块大小进行配置

相关问题更多 >

编程相关推荐

热门问题

热门文章