我可以监控spacy解析的进度吗?
我有一个简单的程序,用来处理英文文本,使用的是spacy这个工具,并输出一些关于文本中词语的信息。不过,当处理很大的文本时,spacy的处理速度比较慢。有没有办法能看到处理进度,最好是以百分比的形式显示?我没有使用自己的模型,只是用spacy提供的那些模型。
import spacy
// load big text file into `text` variable
nlp = spacy.load("en_core_web_sm")
nlp.max_length = len(text)+1
doc = nlp(text)
// output info
1 个回答
0
一般来说,我不建议把整个文本当作一大块来处理,最好先把它分成几个小段落。
比如,你可以先在每个 \n\n
的地方进行分割。
然后,你可以通过 nlp.pipe()
一次性处理多个文档,这样你还可以使用 tqdm 进度条来查看进度。
另外,你也可以 在文档中创建批次,然后把结果合并起来。