clowdflows自然语言处理模块
cf-nlp的Python项目详细描述
#clowdflows nlp模块
一个[clowdflows](https://github.com/xflows/clowdflows/)包,其中包含用于自然语言处理的小部件。该包还可以与[clowdflows](https://github.com/xflows/clowdflows/)2.0一起使用。
[![文档状态](https://readthedocs.org/projects/rdm/badge/?version=latest)](http://clowdflows.readthedocs.io/)
目前,该项目包含不同语料库操作的组件,基本的自然语言处理操作,如标记化、停止词删除、引理化、词性标注等,还包含推文流、词汇提取和性别分类等模块。
##安装,文档
由于三个pickled模型对于github来说太大,您必须从外部链接手动下载以下模型,并将它们添加到cf_nlp/models/reldi_tagger子文件夹中,以使reldi tagger和reldi lemmatizer工作:
- http://nlp.ffzg.hr/data/reldi/hr.lexicon.guesser
- http://nlp.ffzg.hr/data/reldi/sr.lexicon.guesser
- http://nlp.ffzg.hr/data/reldi/sl.lexicon.guesser
请注意,由于包大小的限制,pypi包不包括需要手动添加的模型。这可以通过从github(https://github.com/xflows/cf_nlp/tree/master/nlp/models)下载model文件夹来完成。上面提到的三个pickled模型需要手动下载并添加到文件夹中。您还可以从以下网站下载一个包含所有车型的车轮:
请在[阅读文档](http://clowdflows.readthedocs.io/)上找到其他安装说明、示例和api参考。
##注
请注意,这是一个研究项目,可以(也可以)定期进行重大的改变。更改记录在[ChangeLog]中(changelog.md)。
欢迎提出请求和问题。
##cf nlp包代码的贡献者
马特马丁克(@matej martinc)
- [知识技术部](http://kt.ijs.si),卢布尔雅那Jo_ef Stefan学院