Python NLP葡萄牙语

NLPyPort的Python项目详细描述


NLP端口

NLPy_端口是从NLTK管道组装而来的管道,添加和更改其元素以更好地处理先前为NLPPort管道创建的葡萄牙语。 它支持目前的标记化、词性标注、词性化和命名实体识别

安装

安装NLPyPort应该像安装需求一样简单,或者通过pip安装模块(pip install NLPyPort)。但是,可能需要一些其他配置。在

如果您的NLTK版本高于3.4.5,请运行以下命令安装版本3.4.5:

>>> pip install nltk==3.4.5

如果您安装了NLTK并且没有下载“Floresta”语料库,请运行以下命令:

^{pr2}$

使用

为了简化NLPyPort管道的使用,对其进行了一些结构更改。“的”范例.py“文件显示了操作系统的几个用例示例。在

如何使用管道

根据计划的用途,管道可以用三种不同的方式调用:

1-默认

text=new_full_pipe(your_input_file)

2-可选参数

text=new_full_pipe(your_input_file,options=options)

3-可选参数和预加载管道

config_list=load_congif_to_list()# Pre-load the pipelinetext=new_full_pipe(your_input_file,options=options,config_list=config_list)

可用选项

“tokenizer”:True->;执行标记化

“pos\u tagger”:真->;执行pos tagger

“lemmatizer”:True->;执行柠檬化

“实体识别”-gt;执行

“np-chunking”:真->;执行np chunking

“预加载”:False->;预加载管道,需要附加参数“config\u list”

“string_or_array”:True->;将输入设置为数组或字符串

返回的文本

如果成功,管道将返回“Text”类的对象。其属性如下: 文本标记 text.pos_标签 文本.lemas 文本.实体 text.np_标签在

另外,返回到CoNNL的方法有: 文本打印()

为了分开行,在每行末尾添加额外的令牌EOS。在

学分

Tokenizer和Lemmatizer资源文件-Rodrigues、Ricardo、Hugo Gonçalo Oliveira和Paulo Gomes。”NLPPort:葡萄牙语NLP的管道(短论文)。“第七届语言、应用和技术研讨会(SLATE 2018)。Schloss Dagstuhl Leibniz Zentrum fuer Informatik,2018年。在

Lemmatizer design—罗德里格斯、里卡多、雨果·冈萨洛·奥利维拉和保罗·戈梅斯。”LemPORT:一个葡萄牙语的高精度跨平台词法分析器〉,第三届语言、应用和技术研讨会。Schloss Dagstuhl Leibniz Zentrum fuer Informatik,2014年。在

PoS培训师(改编自)-https://github.com/fmaruki/Nltk-Tagger-Portuguese

命名实体识别
CRF套房-冈崎直树http://www.chokkan.org/software/crfsuite/ sklearn crfsuite包装器-https://github.com/TeamHG-Memex/sklearn-crfsuite

语料库 词性标注训练语料库 MacMorpho-http://nilc.icmc.usp.br/macmorpho/ 福雷斯塔圣蒂卡-https://www.linguateca.pt/Floresta/corpus.html

引用

要引用和授予管道信用,请使用以下BibText参考:

@inproceedings{费雷拉_预计:2019年, 作者:{João Ferreira and Hugo{Gonçalo~oliveria}和里卡多·罗德里格斯}, 书名{语言、应用和技术研讨会(SLATE 2019)}, 月={June}, 注:{按}, Title={NLTK}用于处理{P}或图格里斯}, 年份={2019}}

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
空字符串检查在java中未按预期工作   JavaSpringWebClient:自动计算主体的HMAC签名并将其作为头传递   foreach是否有一个Java等效的foreach循环和一个引用变量?   java如何在Eclipse中导入jar   使用特定第三方或java时lombok触发错误。*方法或构造函数   安卓 java将对象数组转换为int数组   java使一定百分比的JUnit测试通过   java Android:将Seekbar的一个值与另一个值进行比较   java将int数组(图像数据)写入文件的最佳方式是什么   java取代了系统。yml的构造函数内的getProperty   sqlite Java将公钥和私钥转换为字符串,然后再转换回字符串   安卓获取白色像素并将其保存到java opencv中的数组中   java为什么是ServerSocket。setSocketFactory静态?   Java数组似乎在不直接修改的情况下更改值