文本和nlp的数据加载器和摘要
languageflow的Python项目详细描述
语言流
文本和NLP的数据加载器和摘要
要求
安装依赖项
$ pip install future, tox $ pip install python-crfsuite==0.9.5 $ pip install Cython $ pip install -U fasttext --no-cache-dir --no-deps --force-reinstall $ pip install xgboost==0.82
安装
$ pip install languageflow
成分
- 变形金刚:数字移动器、计数矢量器、tfidf矢量器
- 型号:SGDclassifier、XGBoostClassifier、KimcnnClassifier、FastTextClassifier、CRF
数据
使用download命令下载数据集
$ languageflow download DATASET
列出所有数据集
$ languageflow list
数据集
数据集模块当前包含:
- 标记:vlsp2018-ner、vtb-chunk*、vlsp2016-ner*、vlsp2013-pos*、vlsp2013-wtk*
- 分类:AIVIVN219庘U SA*、VLSP2018庘U SA*、UTS2017庘U Bank、VLSP2016庘U SA*、VNTC
- 明文:vneses,vntq_small,vntq_big
警告(*):对于已关闭的许可证数据集,必须提供要下载的URL
示例
下载UTS2017_BANKdataset
$ languageflow download UTS2017_BANK
使用UTS2017_BANK数据集
>>>fromlanguageflow.data_fetcherimportDataFetcher,NLPData>>>corpus=DataFetcher.load_corpus(NLPData.UTS2017_BANK_SA)>>>print(corpus)CategorizedCorpus:1780train+197dev+494testsentences
历史记录
1.1.7(2018-04-12)
- 使用travis和pypi自动部署
- 修复依赖关系hell
1.1.6(2017-12-26)
- 增加数据模块处理数据下载和数据预处理
- 添加许多新型号:SGDClassier、XGBoostClassier、FastTextClassifier、CRF
- 添加新功能:语言板
- 与travis ci自动连续集成
- 使用readthedocs.org生成文档
1.1.5(2017-12-11)
- 重构项目与Underthesa实验集成
0.1.0(2017-09-18)
- pypi上的第一个版本。