当计数器变大时,它会变得越来越慢吗?

2024-06-16 11:07:53 发布

您现在位置:Python中文网/ 问答频道 /正文

def frequency_with_batch(textlines, freq_counter):
     
    docs = nlps(textlines)
    log_every_n = 100000
    for i, doc in enumerate(docs):
        
        log_every_n += 1
        tokens = doc['words']

        freq_counter.update(tokens)

我有一个40G的文本文件,我想计算词频。它从文件中读取,每批1000行。柜台是:

freq_counter = collections.Counter()

我没有准确地描述。但当它运行时,通过观察日志,它似乎变得更慢了。它现在已经完成了3000万条生产线的加工。我不明白为什么还有其他因素使它变慢。计算机的内存是300G,足够大了

这样使用时,计数器自然会变慢吗

补充:

  1. “tokens”是由nlps()函数拆分的单词列表
  2. 我省略了日志打印语句

Tags: inlogdocsfordocdefwithbatch