用gensim加载LdaMallet模型并对看不见的文档进行分类的正确方法

2024-05-17 12:57:40 发布

您现在位置:Python中文网/ 问答频道 /正文

在我的项目中,我使用Python库gensim来进行主题建模/文本提取。 我试着加载我训练过的LdaMallet模型来分类新的看不见的文本。在

第一部分是加载模型。在

import os

dirname = os.path.dirname(__file__)
filename = os.path.join(dirname, 'mallet-2.0.8/bin/mallet')

# Download File: http://mallet.cs.umass.edu/dist/mallet-2.0.8.zip
os.environ['MALLET_HOME'] = # path to mallet

ldaMallet = gensim.models.wrappers.LdaMallet.load('lda_malletoutputCommentsAndMethods.model)
ldaModel = gensim.models.wrappers.ldamallet.malletmodel2ldamodel(ldaMallet)

我不确定将ldaMallet转换为LdaModel的最后一行。这是取得结果的唯一途径。在

第二部分是新数据的准备和分类。在

^{pr2}$

结果如下:

[(16, 0.143), (17, 0.08), (9, 0.0653),...]

无论我在other_texts数组中使用哪一个文本,这个结果都不会改变,但应该是这样。在


Tags: path项目模型文本主题osmodels分类