如何使用Gensim应用句子级LDA模型?

2024-03-28 18:51:07 发布

您现在位置:Python中文网/ 问答频道 /正文

是否有可能按照Bao和Datta(2014)中的建议,使用Gensim来应用句子级LDA模型?论文is here。在

其显著特点是它提出了“每句话一个主题”的假设(p.1376)。这与其他句子级方法不同,后者通常允许每个句子包含多个主题。”最直截了当的方法是把每一句话都当作一个文件来处理,并将LDA模型应用于句子的收集,而不是文件。”。但是,我认为更合理的假设是一句话涉及一个话题。在

谢谢你!在


Tags: 文件方法模型主题hereis建议句子
1条回答
网友
1楼 · 发布于 2024-03-28 18:51:07

如果您将文档拆分为多个句子,您就可以轻松地运行Brody&Elhadad(2010)所称的local-LDA,只需将文本数据逐句地输入LDA即可。但是,LDA仍然会为每个句子提供多个主题(根据定义,您将获得所有主题的值,尽管gensim的minimum_probabiliy默认值为0.01),这当然与Bao&Datta提出的方法不同。在

但是,BA&达塔(2014)的文章的{a2}包含C或C++(我假设,它在自述中没有)^ ^ }加上材料中的使用说明。你可以从命令行运行它,或者写一个wrapper for Python(以gensim格式输出将是锦上添花)-如果你这样做,请分享你的代码,这可能对其他人有帮助。在

相关问题 更多 >