在使用gensim创建tf-idf模型字典时是否使用了词干提取?
我正在使用Gensim这个Python工具包来为文档构建tf-idf模型。所以我需要先为所有文档创建一个字典。不过,我发现Gensim在创建字典和语料库之前并没有进行词干提取,这样理解对吗?
2 个回答
0
我之前也遇到过同样的问题。为了克服这个困难,我首先使用了 NLTK
来处理文档,然后再用 gensim
进行进一步的处理。这样做可能会让你的工作变得更简单、更方便。
3
你说得对。Gensim并没有做什么特别的事情,它只是把你给它的内容转换成不同的模型。
这里有一句相关的话和它的链接:
处理文档的方式非常多样,取决于应用和语言,所以我决定不通过任何接口来限制它们。相反,文档是通过从中提取的特征来表示的,而不是通过它的“表面”字符串形式:你如何获取这些特征完全取决于你自己。