大型二进制文件（经纬度/高度转ECEF）的快速转换（2.1GB+）

Question

现在，我正在尝试把大量的二进制文件，这些文件里的数据是经纬度和高度的格式，转换成基于文本的ECEF笛卡尔坐标格式（x, y, z）。目前的问题是，这个过程非常非常慢。

我有超过100GB的数据需要处理，而且可能还会有更多的数据进来。我希望能把这段代码尽可能地加快。

现在我的代码大致是这样的：

import mmap
import sys
import struct
import time

pointSize = 41

def getArguments():
    if len(sys.argv) != 2:
        print """Not enough arguments.
        example:
            python tllargbin_reader.py input_filename.tllargbin output_filename
        """
        return None
    else:
        return sys.argv

print getArguments()

def read_tllargbin(filename, outputCallback):
    f = open(filename, "r+")
    map = mmap.mmap(f.fileno(),0)
    t = time.clock()
    if (map.size() % pointSize) != 0:
        print "File size not aligned."
        #return
    for i in xrange(0,map.size(),pointSize):
        data_list = struct.unpack('=4d9B',map[i:i+pointSize])
        writeStr = formatString(data_list)
        if i % (41*1000) == 0:
            print "%d/%d points processed" % (i,map.size())
    print "Time elapsed: %f" % (time.clock() - t)
    map.close()


def generate_write_xyz(filename):
    f = open(filename, 'w', 128*1024)
    def write_xyz(writeStr):
        f.write(writeStr)
    return write_xyz

def formatString(data_list):
    return "%f %f %f" % (data_list[1], data_list[2],data_list[3])
args = getArguments()
if args != None:
    read_tllargbin(args[1],generate_write_xyz("out.xyz"))

convertXYZ()基本上就是这里的转换公式：http://en.wikipedia.org/wiki/Geodetic_system

我在想，如果用一个线程每次读取大约4MB的数据，把它们放进一个有限的缓冲区，然后用另一个线程进行字符串格式的转换，最后再用一个线程把字符串写回到不同硬盘上的文件，这样会不会更快。不过我可能有点急于求成……

我现在正在用Python进行测试，但如果能更快地处理这些文件，我也不介意换其他语言。

任何建议都很好。谢谢！

编辑：

我又用cProfile对代码进行了分析，这次把字符串格式和输入输出分开了。结果发现，实际上是字符串格式的处理拖慢了速度……这是分析报告：

         20010155 function calls in 548.993 CPU seconds

   Ordered by: standard name

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
        1    0.000    0.000  548.993  548.993 <string>:1(<module>)
        1    0.016    0.016  548.991  548.991 tllargbin_reader.py:1(<module>)
        1   24.018   24.018  548.955  548.955 tllargbin_reader.py:20(read_tllargbin)
        1    0.000    0.000    0.020    0.020 tllargbin_reader.py:36(generate_write_xyz)
 10000068  517.233    0.000  517.233    0.000 tllargbin_reader.py:42(formatString)
        2    0.000    0.000    0.000    0.000 tllargbin_reader.py:8(getArguments)
 10000068    6.684    0.000    6.684    0.000 {_struct.unpack}
        1    0.002    0.002  548.993  548.993 {execfile}
        2    0.000    0.000    0.000    0.000 {len}
        1    0.065    0.065    0.065    0.065 {method 'close' of 'mmap.mmap' objects}
        1    0.000    0.000    0.000    0.000 {method 'disable' of '_lsprof.Profiler' objects}
        1    0.000    0.000    0.000    0.000 {method 'fileno' of 'file' objects}
    10003    0.955    0.000    0.955    0.000 {method 'size' of 'mmap.mmap' objects}
        2    0.020    0.010    0.020    0.010 {open}
        2    0.000    0.000    0.000    0.000 {time.clock}

有没有更快的方法来格式化字符串呢？

大数据处理性能优化多线程字符串格式化数据处理二进制文件数据转换 ECEF坐标

大型二进制文件（经纬度/高度转ECEF）的快速转换（2.1GB+）

3 个回答

撰写回答