我有一个大约1百万个文档的语料库,每个文档大约有50个单词长。我在一台拥有32个虚拟核心和AWS中重要ram的机器上运行。在
“目录”是每个文件的列表。当我试图用nlp.管道,仍需约20-40分钟。这对我来说很奇怪,因为我听说spacy发布了python的GIL,每秒可以处理100k个单词。在
下面是我的代码-我是否没有正确设置管道以加快处理速度?在
nlp = sp.load('en_core_web_lg')
t0_nlp = time()
contents_piped=[]
for doc in nlp.pipe(contents, n_threads=16, batch_size=10000):
contents_piped.append(doc)
t1_nlp = time()
dur_nlp = t1_nlp-t0_nlp
目前没有回答
相关问题 更多 >
编程相关推荐