如何加速这段代码（循环/列表/元组优化）？

def readerFunction(recordSize, recordFormat, connection, outputDirectory, outputFile, numObjects): insertString = "insert into NODE_DISP_INFO(node, analysis, timeStep, H1_translation, H2_translation, V_translation, H1_rotation, H2_rotation, V_rotation) values (?, ?, ?, ?, ?, ?, ?, ?, ?)" analysisNumber = int(outputPath[-3:]) outputFileObject = open(os.path.join(outputDirectory, outputFile), "rb") outputFileObject, numberOfRecordsInFileObject = determineNumberOfRecordsInFileObjectGivenRecordSize(recordSize, outputFileObject) numberOfRecordsPerObject = (numberOfRecordsInFileObject//numberOfObjects) loop1StartTime = time.time() for i in range(numberOfRecordsPerObject ): processedRecords = [] loop2StartTime = time.time() for j in range(numberOfObjects): fout = outputFileObject .read(recordSize) processedRecords.append(tuple([j+1, analysisNumber, i] + [x for x in list(struct.unpack(recordFormat, fout))])) loop2EndTime = time.time() print "Time taken to finish loop2: {}".format(loop2EndTime-loop2StartTime) dbInsertStartTime = time.time() connection.executemany(insertString, processedRecords) dbInsertEndTime = time.time() loop1EndTime = time.time() print "Time taken to finish loop1: {}".format(loop1EndTime-loop1StartTime) outputFileObject.close() print "Finished reading output file for analysis {}...".format(analysisNumber)

3条回答

网友

1楼 · 编辑于 2024-05-26 07:45:49

这主要是一个I/O问题。你知道吗

for j in range(numberOfObjects):
    fout = outputFileObject .read(recordSize)

您的大部分时间都是在读取文件中的少量增量位（即一次读取一条记录），然后使用struct解压这些单独的记录。这太慢了。相反，一次抓取你想要的文件的整个块，然后让struct.unpack以C的速度翻滚。你知道吗

您将需要做一点数学来计算read需要多少字节，并更改recordFormat格式字符串来告诉struct如何解包整个内容。你的例子中没有足够的信息让我更准确地告诉你应该怎么做。你知道吗

我还要指出：

tuple([j+1, analysisNumber, i] + [x for x in list(struct.unpack(recordFormat, fout))])

是不是写得更理智了

(j+1, analysisNumber, i) + struct.unpack(recordFormat, fout)

…但是如果您按照我上面的建议完全删除循环，则需要重构该行。（您可以使用zip和enumerate在整个解包之后将数据预处理到每个结构成员上）

编辑：示例。我把一百万个未签名的整数打包到一个文件中。yours()是你的方法，mine()是我的方法。你知道吗

def yours():
     res = []
     with open('packed', 'rb') as f:
         while True:
             b = f.read(4)
             if not b:
                 break
             res.append(struct.unpack('I',b))
     return res

def mine():
     with open('packed', 'rb') as f:
         return struct.unpack('1000000I',f.read())

时间安排：

%timeit yours()
1 loops, best of 3: 388 ms per loop

%timeit mine()
100 loops, best of 3: 6.14 ms per loop

所以，大约有两个数量级的差异。你知道吗

网友

2楼 · 编辑于 2024-05-26 07:45:49

在循环2中我唯一看到的是错误地使用列表理解。你知道吗

不要在列表类型对象上使用[x for x in list]。因为你在这里做必要的迭代。它可以写成list

所以你应该这样写

processedRecords.append(
    tuple([j+1, analysisNumber, i] + list(struct.unpack(recordFormat, fout))))

网友

3楼 · 编辑于 2024-05-26 07:45:49

我认为使用mmap模块来处理内存映射文件也许能帮你节省两次时间。我发现它太小了或者非常大的块不会节省很多，但是您可以尝试查看最佳大小。你知道吗

import mmap

def binFileRead(chunk):   # the reading of binary file length size
    with open(filename, "rb") as f:
        for n in range(int(length/chunk)):
            dd=f.read(chunk) 

def mapFileRead(chunk):  # the reading of memory mapped file length size
    with open(filename, "r+b") as f:
        mapf = mmap.mmap(f.fileno(), length, access=mmap.ACCESS_READ)  
        for n in range(int(length/chunk)):
            offset=n*chunk
            dd=mapf[offset:offset+chunk]
          #  dd=mapf.read(chunk)
        mapf.close()

我对两个功能都计时：

timeit("mapFileRead({})".format(n),"from __main__ import mapFileRead", number=1))
timeit("binFileRead({})".format(n),"from __main__ import binFileRead", number=1))

chunk=4096: 
  mapFileRead 0.00837285185687 
  binFileRead 0.0148429479166

编辑时间：我认为，一个索引访问文件，而读取是允许使用线程并行读取多个记录。如果你有兴趣，我可以写一个例子。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章