基于python的rust自然语言处理

vtext的Python项目详细描述


vtext

这是rust vtext板条箱的python包装。

此包旨在为 机器学习应用。

API当前不稳定。

功能

  • 标记化:regexp标记器,unicode分段+语言特定规则
  • 堵塞:雪球(在python中比nltk快15-20倍)
  • 分析器(planned):单词和字符n-grams,跳过grams
  • 令牌计数:将令牌计数转换为稀疏矩阵以供使用 在机器学习图书馆。类似于CountVectorizerHashingVectorizer在scikit学习中。
  • 特征权重(planned):基于文档的特征权重 频率(TF-IDF),特征归一化。
  • levenshtein edit distance;s_rensen dice,jaro,jaro winkler string相似度

安装

vtext需要python 3.5+,可以使用,

pip install --pre vtext

文件

项目文档:vtext.io/doc/latest/index.html

许可证

vtext在Apache License, Version 2.0下发布。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
在JAVA中,将十六进制转换为十进制,将十进制转换为时间戳   无法识别java子类构造函数   java JavaFx将两个“setOnAction”设置为同一个按钮   java重载的StringBuilder insert()以及偏移量和索引之间的差异   java调试异常初始化错误   带有可插拔组件的应用程序的面向对象设计中的java问题   java中mysql的Socket编程   java NetBeans平台和TinyLaF 1.4.0   java Sql server 2005知道插入了新记录   java正则表达式如何匹配2个任意但不同的字符   java如何在两个类之间使用double?   java我可以使用嵌套的rest webservice或在webservice中打开链接吗   java如何将Swagger与Maven+Jersey+jboss EAP 6.2集成   java无法更新视图寻呼机中的中间片段。   安卓中的java For循环会在项目之间创建间隙   具有重复模式的java正则表达式   用于Swagger的java GraphQL扩展   基于Android Fonttype在纯Java中查找精确的Fonttype   Java字符串返回方法不返回