将TermDocument矩阵传递给Gensim LDA Mod

2024-04-24 23:31:57 发布

您现在位置:Python中文网/ 问答频道 /正文

我的术语documentmatrix是numpy矩阵格式的,我有一个字典来表示术语documentmatrix。在

有什么方法可以很容易地把这两个传递到Gensim的LDA模型中吗?在

tdMatrix = np.load('tdmatrix.npy')
dictionary = cPickle.load(open('dictionary.p', 'r')) # stores term represented by each column

我能把这个传给谁吗gensim.models.ldamodel.LDA?在


Tags: 方法模型numpydictionary字典格式npload
2条回答

我相信Gensim使用几乎相同的结构来表示一包单词语料库,但我不认为默认字典或numpy数组是兼容的。 Gensim的API列出了一些可以适应各种格式的“corpusreader”,但这些似乎是为从其他工具包导入数据而构建的。 因此,在您的情况下,最简单的解决方案可能是使用矩阵和字典作为分离字符串的列表来重建文档。然后将您的列表转换为Gensim的单词语料库包,最后转换为LDA,如tutorials所示。在

这种方法还有一个额外的好处,你可以应用Gensim的预处理函数和低频/高频过滤单词。在

要将2D numpy(甚至是scipy.sparse.csc)数组视为gensim语料库,请使用内置的matutils.Scipy2Corpus函数。在

相关问题 更多 >