def frequency_with_batch(textlines, freq_counter):
docs = nlps(textlines)
log_every_n = 100000
for i, doc in enumerate(docs):
log_every_n += 1
tokens = doc['words']
freq_counter.update(tokens)
我有一个40G的文本文件,我想计算词频。它从文件中读取,每批1000行。柜台是:
freq_counter = collections.Counter()
我没有准确地描述。但当它运行时,通过观察日志,它似乎变得更慢了。它现在已经完成了3000万条生产线的加工。我不明白为什么还有其他因素使它变慢。计算机的内存是300G,足够大了
这样使用时,计数器自然会变慢吗
补充:
目前没有回答
相关问题 更多 >
编程相关推荐