Python NLP葡萄牙语
NLPyPort的Python项目详细描述
NLP端口
NLPy_端口是从NLTK管道组装而来的管道,添加和更改其元素以更好地处理先前为NLPPort管道创建的葡萄牙语。 它支持目前的标记化、词性标注、词性化和命名实体识别
安装
安装NLPyPort应该像安装需求一样简单,或者通过pip安装模块(pip install NLPyPort)。但是,可能需要一些其他配置。在
如果您的NLTK版本高于3.4.5,请运行以下命令安装版本3.4.5:
>>> pip install nltk==3.4.5
如果您安装了NLTK并且没有下载“Floresta”语料库,请运行以下命令:
^{pr2}$使用
为了简化NLPyPort管道的使用,对其进行了一些结构更改。“的”范例.py“文件显示了操作系统的几个用例示例。在
如何使用管道
根据计划的用途,管道可以用三种不同的方式调用:
1-默认
text=new_full_pipe(your_input_file)
2-可选参数
text=new_full_pipe(your_input_file,options=options)
3-可选参数和预加载管道
config_list=load_congif_to_list()# Pre-load the pipelinetext=new_full_pipe(your_input_file,options=options,config_list=config_list)
可用选项
“tokenizer”:True->;执行标记化
“pos\u tagger”:真->;执行pos tagger
“lemmatizer”:True->;执行柠檬化
“实体识别”-gt;执行
“np-chunking”:真->;执行np chunking
“预加载”:False->;预加载管道,需要附加参数“config\u list”
“string_or_array”:True->;将输入设置为数组或字符串
返回的文本
如果成功,管道将返回“Text”类的对象。其属性如下: 文本标记 text.pos_标签 文本.lemas 文本.实体 text.np_标签在
另外,返回到CoNNL的方法有: 文本打印()
为了分开行,在每行末尾添加额外的令牌EOS。在
学分
Tokenizer和Lemmatizer资源文件-Rodrigues、Ricardo、Hugo Gonçalo Oliveira和Paulo Gomes。”NLPPort:葡萄牙语NLP的管道(短论文)。“第七届语言、应用和技术研讨会(SLATE 2018)。Schloss Dagstuhl Leibniz Zentrum fuer Informatik,2018年。在
Lemmatizer design—罗德里格斯、里卡多、雨果·冈萨洛·奥利维拉和保罗·戈梅斯。”LemPORT:一个葡萄牙语的高精度跨平台词法分析器〉,第三届语言、应用和技术研讨会。Schloss Dagstuhl Leibniz Zentrum fuer Informatik,2014年。在
PoS培训师(改编自)-https://github.com/fmaruki/Nltk-Tagger-Portuguese
命名实体识别
CRF套房-冈崎直树http://www.chokkan.org/software/crfsuite/
sklearn crfsuite包装器-https://github.com/TeamHG-Memex/sklearn-crfsuite
语料库 词性标注训练语料库 MacMorpho-http://nilc.icmc.usp.br/macmorpho/ 福雷斯塔圣蒂卡-https://www.linguateca.pt/Floresta/corpus.html
引用
要引用和授予管道信用,请使用以下BibText参考:
@inproceedings{费雷拉_预计:2019年, 作者:{João Ferreira and Hugo{Gonçalo~oliveria}和里卡多·罗德里格斯}, 书名{语言、应用和技术研讨会(SLATE 2019)}, 月={June}, 注:{按}, Title={NLTK}用于处理{P}或图格里斯}, 年份={2019}}
- 项目
标签: