标记为LDA+引导LDA主题建模

2024-04-18 17:16:39 发布

您现在位置:Python中文网/ 问答频道 /正文

我对机器学习、NLP和LDA都很陌生,所以我甚至不确定我是否完全正确地解决了我的问题;但是我尝试用已知主题和多个主题选择进行无监督的主题建模。 基于Topic modelling, but with known topics?

我可以用每个主题标记我的文档中的每一个,并且我的无监督集有效地变成了受监督的(LLDA是一种有监督的技术)。在

读了这篇paper我遇到了一些其他潜在的问题- 首先,我的数据由类别和子类别组成。根据这篇论文,LLDA更有效地处理了文本之间的语义差异——这在我相对接近的子类别中就没有了。此外,论文指出,LLDA并不是设计成多标签分类器的。在

我希望通过包含guidelda的引导部分来弥补这些缺点(我还没有读过关于这方面的文章,但我确实读过https://medium.freecodecamp.org/how-we-changed-unsupervised-lda-to-semi-supervised-guidedlda-e36a95f3a164)。在

那么,是否有任何算法(我假设对LLDA进行了修改,但我在这一领域不是很了解)允许人们使用某种形式的直觉来帮助一个无监督的主题模型,该模型包含选择多个主题的已知主题类?在

至于为什么我不使用引导式LDA——我计划测试一下,看看它有多好(与LLDA一起)。但它也不是为多个标签设计的。在

如果重要的话,请稍加注意——我实际上是在为我的数据使用文档和单词,我读过有关LDA与其他数据类型一起使用的文章。在

进一步说明-我对Python有相当的经验,不过我听说有一个很好的主题建模工具Mallet,我可能会去探索,但是还没有研究(也许它有一些东西可以用来做这个?)在


Tags: 数据文档模型机器主题topicnlp文章
2条回答

因为您有一组已知的主题,所以使用受监督的LDA/LLDA是有意义的。如果您使用无监督的LDA并用已知主题标记所有文档,它会找到给定文档之间的关联,但它们可能与给定主题不相关。在

我一直在用mallet和python创建有监督的LDA。Gensim为Mallet的LDA类提供了一个包装器,但是我有幸使用python的子进程通过命令行使用Mallet。我用大卫米诺的post作为起点。在

一个文档可以有多个标签,LDA的优点是它几乎就像一个模糊关联最近邻算法。子类别对于lda来说不应该是个问题,因为文档可以与父主题和子主题有关联,而且它们不需要均匀分布。它是一个多标签分类器。在

如果您真的想使用无监督分类器来处理文档,我建议您使用RNN,一种递归神经网络。它对于文本/文档处理特别有用,因为它查找数据序列的关联。在

正如您所说,您将尝试引导式LDA,您可以通过以下方式获得多个标签:

有一个称为theta分布的分布,或者当我们想要得到一个文档的主题时,引导LDA的输出将是一个数组,它有每个文档每个主题的概率。我们通常选择最高的话题概率。五月你可以根据自己的问题设置一个阈值,选择概率大于这个的题目。在

这将有助于您解决无监督的多标签主题建模问题。在

相关问题 更多 >