Spacy:如何通过nlp.管道?

2024-05-16 18:55:12 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个大约1百万个文档的语料库,每个文档大约有50个单词长。我在一台拥有32个虚拟核心和AWS中重要ram的机器上运行。在

“目录”是每个文件的列表。当我试图用nlp.管道,仍需约20-40分钟。这对我来说很奇怪,因为我听说spacy发布了python的GIL,每秒可以处理100k个单词。在

下面是我的代码-我是否没有正确设置管道以加快处理速度?在

nlp = sp.load('en_core_web_lg')

t0_nlp = time()
contents_piped=[]
for doc in nlp.pipe(contents, n_threads=16, batch_size=10000):
    contents_piped.append(doc)
t1_nlp = time()
dur_nlp = t1_nlp-t0_nlp

Tags: 文档机器aws核心doc管道nlptime