Python:制作大型词典需要大量的计算

2024-04-27 00:04:11 发布

您现在位置:Python中文网/ 问答频道 /正文

我用的是超级计算机,所以内存不是问题。事实上,我正试图利用大内存的可用性。你知道吗

我试图从一个文件中读取1.77亿行,将每行解析为两个短字符串,并将这些字符串存储为字典键元组。对于前1000万行左右,python每3秒读取超过100万次。这个速度迅速下降,据我所知,越来越长。所以我的过程比预期要长很多倍。你知道吗

这是因为Python不断调整哈希表的大小吗?
如果是的话,有没有办法宣布字典的大小为1.8亿?你知道吗

targets={}
for line in open(blastInput):
    pieces = line.split()
    target = (pieces[0], pieces[1])
    #steps to calculate count omitted
    if not targets.has_key(target):
        targets[target] = 0
    targets[target] += count

Tags: 文件内存字符串利用target字典countline