英语多任务cnn培训的ontonnotes。分配上下文特定的令牌向量、pos标记、依赖解析和命名实体。
en-qai-sm的Python项目详细描述
library.qai.spacy
定制Spacy管道
安装
可在PyPi
$ pip install en-qai-sm > installs the package and deps including spacy
用法
importspacynlp=spacy.load('en_qai_sm')>>>doc=nlp("I ain't got no hands!")>>>fortokenindoc:print(token,token.pos_)...IPRONain't VERBgotVERBnoDEThandsNOUN!PUNCT
关于Spacy管道
默认Spacy管道包含4个步骤(组件):
tokenizer
-将文本拆分为标记tagger
-分配部分语音标记parser
-分配依赖项标签ner
-检测并标记命名实体
自定义组件(例如,doc
上的任何函数)可以插入到管道中(在tokenizer
之后的任何位置)。为了简单起见,tokenizer
不在管道描述中列出。
引用:spaCy docs。
管道组件
v1.0.0
管道包括:
pipeline=["merge_matcher","tagger","parser","ner"]
其中merge_matcher
匹配并合并为类型为:
- 用连字符连接,例如
rock-hard
- 收缩例如
don't
- 特殊(非正式)缩写,例如
gonna
许可证
因为这只是Spacy的en_core_web_sm
的一个小扩展,所以我们包含相同的许可证-mit。