我可以监控spacy解析的进度吗?

0 投票
1 回答
26 浏览
提问于 2025-04-13 17:29

我有一个简单的程序,用来处理英文文本,使用的是spacy这个工具,并输出一些关于文本中词语的信息。不过,当处理很大的文本时,spacy的处理速度比较慢。有没有办法能看到处理进度,最好是以百分比的形式显示?我没有使用自己的模型,只是用spacy提供的那些模型。

import spacy

// load big text file into `text` variable

nlp = spacy.load("en_core_web_sm")
nlp.max_length = len(text)+1
doc = nlp(text)

// output info

1 个回答

0

一般来说,我不建议把整个文本当作一大块来处理,最好先把它分成几个小段落。

比如,你可以先在每个 \n\n 的地方进行分割。

然后,你可以通过 nlp.pipe() 一次性处理多个文档,这样你还可以使用 tqdm 进度条来查看进度

另外,你也可以 在文档中创建批次,然后把结果合并起来

撰写回答