用在线LDA预测d测验

2024-04-30 03:50:19 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在使用在线LDA来执行一些主题建模任务。我使用的核心代码基于原始在线LDA论文:Hoffman,Blei和Bach,“潜在Dirichlet分配的在线学习”,NIPS,2010。代码可以在:https://github.com/blei-lab/onlineldavb上找到。在

我用的是大约167000份文件。代码生成lambda文件作为输出,我用它来生成主题(https://github.com/wellecks/online_lda_python,打印主题.py)。但我不确定如何使用它来查找有关新测试数据的主题(类似于model.get_document_主题在gensim)。 请帮助解决我的困惑。在


Tags: 代码httpsgithubcom核心主题lab建模
2条回答

在测试数据上遵循相同的数据处理步骤,即标记化等,然后使用训练数据词汇将测试数据转换为gensim语料库。在

一旦你有了测试语料库,使用LDA来查找文档主题分布。希望这有帮助。在

在代码中,您已经有足够的代码来完成此操作。您所拥有的是lambda(单词topic矩阵),您想要计算的是gamma(文档主题矩阵)。

您只需要在文档上调用^{{cd1>},结果是主题向量。可以通过从中剥离^{{cd2>}来提高性能,因为这些仅需更新lambda。结果是一个函数,它只会推断模型的主题向量。

您不需要更新模型,因为您没有训练它,这是^{cd3>}调用^{{cd4>}之后所做的。

相关问题 更多 >