在spacy中直接使用快速udpipe模型
spacy-udpipe的Python项目详细描述
Spacy+udpipe
这个包包装了快速高效的UDPipe语言不可知的nlp管道 (通过它的Python bindings),所以您可以使用 UDPipe pre-trained models作为50多种语言的spaCy管道。 受到spacy-stanfordnlp的启发,这个包提供的精确度稍低 反过来速度更快的模型(参见UDPipe和StanfordNLP的基准)。
安装
使用包管理器pip安装spacy udpipe。
pip install spacy-udpipe
安装后,使用spacy_udpipe.download(lang)
下载所需语言的预训练模型。
用法
加载的udpipelanguage类返回一个spacy^{
importspacy_udpipespacy_udpipe.download("en")# download English modeltext="Wikipedia is a free online encyclopedia, created and edited by volunteers around the world."nlp=spacy_udpipe.load("en")doc=nlp(text)fortokenindoc:print(token.text,token.lemma_,token.pos_,token.dep_)
由于所有属性都计算一次并在自定义^{nlp.pipeline
为空。
作者和致谢
由Antonio Šajatović创建 在Text Analysis and Knowledge Engineering Lab (TakeLab)实习期间。
贡献
欢迎拉取请求。对于重大变更,请先打开一个问题来讨论您希望更改的内容。
请确保根据需要更新测试。
要开始测试,只需在根源目录中运行^{
许可证
MIT塔克拉布
项目状态
由Text Analysis and Knowledge Engineering Lab (TakeLab)维护。
注释
所有可用的预训模型都是根据CC BY-NC-SA 4.0授权的。
所有注释都与spacy匹配,但token.tag除外,它映射自CoNLLxpos标记(特定于语言的部分语音标记),由相应的Universal Dependencies树库分别为每种语言定义。
支持的语言和模型的完整列表可在^{
} 中找到。此包在其^{
} 中公开了一个spacy_languages
入口点,因此启用了对序列化的完全支持:nlp=spacy_udpipe.load("en")nlp.to_disk("./udpipe-spacy-model")
要正确加载保存的模型,必须在加载时传递
udpipe_model
参数:udpipe_model=spacy_udpipe.UDPipeModel("en")nlp=spacy.load("./udpipe-spacy-model",udpipe_model=udpipe_model)