使用通用工作流语言的nlp流水线软件
nlppln的Python项目详细描述
nlppln是一个python包,用于使用Common Workflow Language(cwl)创建nlp管道。 它提供了(通用的)nlp功能的步骤,比如标记化, 元素化,词性标注,帮助用户构建工作流 从这些步骤
文本处理步骤由(python)命令行工具和cwl组成 使用此工具的规范。 NPPLN提供的大多数工具都封装了现有的NLP功能。 命令行工具是用Click,python 用于创建命令行接口的包。
要创建工作流,必须编写一个python脚本:
from nlppln import WorkflowGenerator with WorkflowGenerator() as wf: txt_dir = wf.add_input(txt_dir='Directory') frogout = wf.frog_dir(in_dir=txt_dir) saf = wf.frog_to_saf(in_files=frogout) ner_stats = wf.save_ner_data(in_files=saf) new_saf = wf.replace_ner(metadata=ner_stats, in_files=saf) txt = wf.saf_to_txt(in_files=new_saf) wf.add_outputs(ner_stats=ner_stats, txt=txt) wf.save('anonymize.cwl')
生成的工作流可以使用cwl运行程序运行,例如cwltool:
cwltool anonymize.cwl --txt_dir /path/to/directory/with/txt/files/
要创建新的(例如,特定于项目的)nlp功能,可以使用nlppln-gen 生成样板(即空的)命令行工具和CWL规范
完整的文档可以在Read the Docs上找到。
许可证
版权所有(c)2016-2018,荷兰特温特大学escience中心
根据apache许可证2.0版(以下简称“许可证”)授权; 除非符合许可证,否则您不能使用此文件。 您可以在
http://www.apache.org/licenses/LICENSE-2.0
除非适用法律要求或书面同意,否则软件 根据许可证分发是按“原样”分发的, 无任何明示或默示的保证或条件。 有关管理权限的特定语言和 许可下的限制。