基于python的rust自然语言处理
vtext的Python项目详细描述
vtext
这是rust vtext板条箱的python包装。
此包旨在为 机器学习应用。
API当前不稳定。
功能
- 标记化:regexp标记器,unicode分段+语言特定规则
- 堵塞:雪球(在python中比nltk快15-20倍)
- 分析器(planned):单词和字符n-grams,跳过grams
- 令牌计数:将令牌计数转换为稀疏矩阵以供使用
在机器学习图书馆。类似于
CountVectorizer
和HashingVectorizer
在scikit学习中。 - 特征权重(planned):基于文档的特征权重 频率(TF-IDF),特征归一化。
- levenshtein edit distance;s_rensen dice,jaro,jaro winkler string相似度
安装
vtext需要python 3.5+,可以使用,
pip install --pre vtext
文件
项目文档:vtext.io/doc/latest/index.html
许可证
vtext在Apache License, Version 2.0下发布。