LDA生成的主题

2024-05-16 06:37:17 发布

您现在位置:Python中文网/ 问答频道 /正文

因此,我是相对新的工作与根西姆和LDA,开始约两周前,我有麻烦相信这些结果。以下是使用11个1段文件产生的主题。你知道吗

话题#0(0.500):0.059*岛屿+0.059*世界+0.057*电脑+0.056*总统+0.053*帖子+0.047*帖子+0.046*提华纳+0.045*副主席+0.045*推特+0.045*总统

2015-06-04 16:22:07891:信息:主题1(0.500):0.093*电脑+0.064*世界+0.060*岗位+0.053*欧元区+0.052*月+0.049*提华纳+0.048*岛屿+0.046*加薪+0.044*利率+0.042*年

这些话题似乎不太合适。事实上,他们似乎几乎没有感觉。我究竟应该如何阅读这些结果?另外,两个主题的主题分布完全相同是正常的吗?你知道吗


Tags: 文件信息主题世界帖子总统lda话题
1条回答
网友
1楼 · 发布于 2024-05-16 06:37:17

所以,你只有11个文档,并且试图从中获得2个主题?可能是没有足够的数据,但尝试迭代更多。你知道吗

顺便问一下,每次迭代后是负对数似然还是困惑度下降了?你知道吗

只要看一下结果,我想如果你迭代更多,你就会得到正确的结果,因为算法已经正确地把语义上相近的东西放在一个主题中了。(发帖、发帖、推特;月、年)

相关问题 更多 >