自然语言框架
nalaf的Python项目详细描述
我们移动了
此库不再维护,只在本地接收错误修复。
我们将培训ner&relation模型的功能移到the text annotation tool, tagtog:
Nalaf-(Na)nature(La)nguage(F)框架
nalaf是用python编写的nlp框架。其目标是成为一个通用的、基于模块的、易于使用的通用文本挖掘任务框架。目前有两项任务:命名实体识别(ner)和关系抽取。这些模块支持培训和注释。与之相关联的是辅助组件,例如交叉验证训练或不同语料库格式的读取和转换目前,利用条件随机场(crf)和支持向量机(svms)利用线性核或树核进行关系抽取。
历史上,该框架是从Rostlab和Technische Universität München的两篇联合论文开始的,重点是生物信息学/生物网络。具体来说,第一个目标是提取nl突变提及。不久之后,又有一篇硕士论文使用并推广了该框架来进行转录因子(tf)与基因或基因产物相互作用关系的提取。NALAF框架计划用于Rostlab的其他BIONLP任务。
由于最初的bionlp焦点,代码的某些部分被裁剪成生物医学领域。然而,目前正在努力推广所有部分,这一进程几乎已经完成。开发不活跃,代码维护也不能保证。
当前维护者:Juan Miguel Cejuela (@juanmirocks)。
(editable version on Lucidchart of the pipeline diagram;需要登录)
如何安装
要求
- 需要Python3(3.5,3.6)
安装NALAF
来自Pypi
pip3 install nalaf python3 -m nalaf.download_data
来源
git clone https://github.com/Rostlab/nalaf.git
cd nalaf
python3 setup.py install
python3 -m nalaf.download_data
测试
python3 setup.py nosetests -a '!slow'# Exclude the slow ones
如何运行,示例
运行example_annotate.py
获取一个简单的注释示例,其中包含一个用于提取蛋白质名称的预先训练的ner模型:
python3 example_annotate.py -p 15878741 12625412
python3 example_annotate.py -s "This is c.A1003G an example"
参见问题https://github.com/Rostlab/nalaf/issues/159python3 example_annotate.py -d resources/example.txt
参见问题{a10}