python 3的文本挖掘实用程序
textmining3的Python项目详细描述
文本缩小3
python 3的文本挖掘实用程序
- 自由软件:GNU通用公共许可v3
- 文档:https://textmining3.readthedocs.io。
- 需要python>;=3.6
功能
这个包包含了python 3中用于文本挖掘的各种有用函数。
它专注于统计文本挖掘(即单词袋模型),并使之 很容易从文档集合创建术语文档矩阵。这个 然后可以将矩阵读入一个统计包(R、Matlab等),以便进一步 分析。该包还提供了一些有用的实用工具来查找 搭配(即有意义的两个词短语),计算编辑距离 字里行间,把长文档分成小块。
这个包有大量的被管理的数据(stopwords,common names,and 有词性和词频的英语词典),允许 用户从文档中提取相当复杂的功能。
此包没有任何自然语言处理功能,如 词性标注的一部分。请参见python nltk中的 功能性(还有更多)。
原始代码和文档在pypi中以包的名称提供 文本挖掘。这个包是python 3的一个端口,并在包下面的pypi中发布 命名为textmining3,并基于原始版本。
学分
最初的文本挖掘1.0包代码是由christian peccei<;cpeccei@hotmail.com>;
这个包是用Cookiecutter和audreyr/cookiecutter-pypackage项目模板创建的。
历史记录
1.1.0(2018-13-19)
- 添加新功能以将DTM导出到pandas.dataframe
1.0.2(2018-12-19)
- textmining到python 3的第一个端口
1.0.0(2010-01-11)
- pypi上文本挖掘的原始版本(参见https://pypi.org/project/textmining/1.0/)