在非常大的csv文件中优化搜索

in_file_1 = open('UniProt Trypsinome (full).csv','r') in_list_1 = list(csv.reader(in_file_1)) out_file_1 = open('UniProt Non-Unique Reference Trypsinome.csv','w+') out_file_2 = open('UniProt Unique Trypsin Peptides.csv','w+') writer_1 = csv.writer(out_file_1) writer_2 = csv.writer(out_file_2) # Create trypsinome dictionary construct ref_dict = {} for row in range(len(in_list_1)): ref_dict[row] = in_list_1[row] # Find unique/non-unique peptides from trypsinome Peptide_list = [] Uniques = [] for n in range(len(in_list_1)): Peptide = ref_dict.pop(n) if Peptide in ref_dict.values(): # Non-unique peptides Peptide_list.append(Peptide) else: Uniques.append(Peptide) # Unique peptides for m in range(len(Peptide_list)): Write_list = (str(Peptide_list[m]).replace("'","").replace("[",'').replace("]",''),'') writer_1.writerow(Write_list)

3条回答

网友

1楼 · 编辑于 2024-04-20 11:19:07

我对Python不是很在行，所以我不知道“in”是如何工作的，但是您的算法似乎是在n²中运行的。试着在阅读完你的列表后对它进行排序，在n log（n）中使用一个algo，比如quicksort，它应该能更好地工作。一旦列表被排序，您只需检查列表中两个连续的元素是否相同。在

所以你得到的读数是n，排序是n log（n）（最多），比较是n

网友

2楼 · 编辑于 2024-04-20 11:19:07

第一个提示：Python支持延迟求值，最好在处理大型数据集时使用它。所以：

在csv.reader与其建立一个庞大的内存列表
不要用范围来构建庞大的内存列表-如果您同时需要项和索引，请使用^{}，如果不需要索引，只需迭代序列中的项。在

第二个提示：使用dict（hashtable）的要点是查找键，而不是值。。。所以不要建立一个庞大的dict作为一个列表。在

第三个提示：如果您只想用一种方法来存储“已经看到”的值，请使用^{}。在

网友

3楼 · 编辑于 2024-04-20 11:19:07

和纽比一起做吧。大致：

import numpy as np
column = 42
mat = np.loadtxt("thefile", dtype=[TODO])
uniq = set(np.unique(mat[:,column]))
for row in mat:
    if row[column] not in uniq:
        print row

您甚至可以使用numpy.savetxt和char数组运算符对output stage进行矢量化，但这可能不会有太大的区别。在

相关问题更多 >

编程相关推荐

热门问题

热门文章