Spacy：如何通过nlp.管道？

2024-05-16 18:55:12 发布

您现在位置：Python中文网/ 问答频道 /正文

6744

网友

男 | 程序猿一只，喜欢编程写python代码。

我有一个大约1百万个文档的语料库，每个文档大约有50个单词长。我在一台拥有32个虚拟核心和AWS中重要ram的机器上运行。在

“目录”是每个文件的列表。当我试图用nlp.管道，仍需约20-40分钟。这对我来说很奇怪，因为我听说spacy发布了python的GIL，每秒可以处理100k个单词。在

下面是我的代码-我是否没有正确设置管道以加快处理速度？在

nlp = sp.load('en_core_web_lg')

t0_nlp = time()
contents_piped=[]
for doc in nlp.pipe(contents, n_threads=16, batch_size=10000):
    contents_piped.append(doc)
t1_nlp = time()
dur_nlp = t1_nlp-t0_nlp

Tags：文档机器 aws 核心 doc 管道 nlp time

0条回答

目前没有回答

编程相关推荐

java SimpleFramework和工厂方法
Java适当地处理异常
java单例类不起作用
java小程序和Swing在eclipse中不显示组件
多个键上的java Redisson FastRemove不起作用
java验证请求正文不等于模式
在Java中从URL读取数据
eche RecyclerView项的java Set自定义字体
string Java如何从Date获取HH:mm:ss
当Java应用程序落后于负载均衡器时，在某些URL上强制使用SSL

Spacy：如何通过nlp.管道？

相关问题更多 >

编程相关推荐

热门问题

热门文章

Spacy：如何通过nlp.管道？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >