python文本挖掘实用程序
textmining的Python项目详细描述
这个包包含各种有用的python文本挖掘函数。 它专注于统计文本挖掘(即单词袋模型),并使之 很容易从文档集合创建术语文档矩阵。这个 然后可以将矩阵读入一个统计包(R、Matlab等),以便进一步 分析。该包还提供了一些有用的实用工具来查找 搭配(即有意义的两个词短语),计算编辑距离 字里行间,把长文档分成小块。
这个包有大量的被管理的数据(stopwords,common names,and 有词性和词频的英语词典),允许 用户从文档中提取相当复杂的功能。
此包没有任何自然语言处理功能,如 词性标注的一部分。请参见python nltk中的 功能性(还有更多)。