基于acromine的文本实体消歧
adeft的Python项目详细描述
阿德夫特
Adeft(基于Acromine的文本上下文实体消歧) 是一个用于建立模型以消除科学文献中生物术语的首字母缩写和其他缩写的实用程序。它使用开发的Acromine算法的实现 曼彻斯特大学的NaCTeM 识别文本语料库中短格式可能的长格式扩展。 它允许用户建立消歧模型来消除基于缩写形式的消歧。 在他们的文本上下文中。越来越多的预先训练的消歧模型可以通过Adeft公开下载。
安装
Adeft适用于Python 3.5及更高版本。它在pypi上可用,可以使用命令安装
$ pip install adeft
然后,可以使用命令下载Adeft的预训练机器学习模型
$ python -m adeft.download
使用ADEFT
可用模型的字典可以用from adeft import available_models
字典将缩写形式映射到模型名。可能有多重等价物 映射到同一模型的缩写形式。
下面是在文本列表上为er运行消歧器的示例
fromadeft.disambiguateimportload_disambiguatorer_dd=load_disambiguator('ER')...er_dd.disambiguate(texts)
用户也可以建立和训练自己的消歧器。查看文档 更多信息。
文档
文件可在 https://adeft.readthedocs.io
演示Adeft工作流的Jupyter笔记本可在notebooks
:
测试
adeft使用nosetests
进行单元测试,并与travis集成
持续集成环境。要在本地运行测试,请确保
安装setup.py as中列出的特定于测试的要求
pip install adeft[test]
下载所有预先训练过的模型,如上图所示。
然后在顶层文件夹中运行nosetests
。