更快速地将文件解析为数组，并与第二个文件中的数组进行比较

Question

我现在有一个MGF文件，里面包含了MS2光谱数据（文件名是QE_2706_229_sequest_high_conf.mgf）。文件的模板和一个示例片段可以在下面的链接找到：

http://www.matrixscience.com/help/data_file_help.html

BEGIN IONS
TITLE=File3249 Spectrum10594 scans: 11084
PEPMASS=499.59366 927079.3
CHARGE=3+
RTINSECONDS=1710
SCANS=11084
104.053180 3866.360000
110.071530 178805.000000
111.068610 1869.210000
111.074780 10738.600000
112.087240 13117.900000
113.071150 7148.790000
114.102690 4146.490000
115.086840 11835.600000
116.070850 6230.980000
... ...
END IONS

这个没有注释的光谱文件里有成千上万条这样的记录，整个文件的大小大约是150MB。我还有一系列文本文件需要解析。每个文件的格式和上面类似，第一列的数据会被读入一个numpy数组中。然后，我会逐条解析这个没有注释的光谱文件，直到找到与注释文本文件中某个数组匹配的记录。

（文件名是GRPGPVAGHHQMPR）

       m/z            i matches
 104.05318      3866.4
 110.07153    178805.4
 111.06861      1869.2
 111.07478     10738.6
 112.08724     13117.9
 113.07115      7148.8
 114.10269      4146.5
 115.08684     11835.6
 116.07085      6231.0

一旦找到匹配的记录，就会生成一个带注释的MGF文件，这个文件里包含了没有注释文件中完整的记录信息，还会加上一行，说明哪个注释文本文件与这条记录匹配。输出结果如下：

BEGIN IONS
SEQ=GRPGPVAGHHQMPR
TITLE=File3249 Spectrum10594 scans: 11084
PEPMASS=499.59366 927079.3
... ...
END IONS

可能有更省计算资源的方法来进行解析。考虑到有2000个注释文件需要搜索，而上面的那个大文件，当前的解析过程在一个2.6 GHz的四核Intel Haswell处理器上大约需要12小时。

下面是可以工作的代码：

import numpy as np
import sys
from pyteomics import mgf
from glob import glob

def main():
    """
    Usage: python mgf_parser
    """

    pep_files = glob('*.txt')
    mgf_file = 'QE_2706_229_sequest_high_conf.mgf'
    process(mgf_file, pep_files)

def process(mgf_file, pep_files):
    """Parses spectra from annotated text file. Converts m/z values to numpy array.

        If spectra array matches entry in MGF file, writes annotated MGF file.
    """

    ann_arrays = {}
    for ann_spectra in pep_files:
        a = np.genfromtxt(ann_spectra, dtype=float, invalid_raise=False, 
                          usemask=False, filling_values=0.0, usecols=(0))              
        b = np.delete(a, 0)
        ann_arrays[ann_spectra] = b

    with mgf.read(mgf_file) as reader:
        for spectrum in reader:
            for ann_spectra, array in ann_arrays.iteritems():       
                if np.array_equal(array, spectrum['m/z array']):
                    print '> Spectral match found for file {}.txt'.format(ann_spectra[:-4])
                    file_name = '{}.mgf'.format(ann_spectra[:-4])
                    spectrum['params']['seq'] = file_name[52:file_name.find('-') - 1]
                    mgf.write((spectrum,), file_name)        


if __name__ == '__main__':
    main()

这个代码只能一次解析一定数量的文件。有没有更高效的解析方法的建议呢？

numpy 文件解析数据匹配数组比较处理器性能计算资源优化 MGF文件 MS2光谱数据

更快速地将文件解析为数组，并与第二个文件中的数组进行比较

1 个回答

撰写回答