动态主题建模的设置数据

2024-04-20 01:15:46 发布

您现在位置:Python中文网/ 问答频道 /正文

我正试图从PUBMED中废弃的数据中学习动态主题建模(捕捉单词的语义变化)。我能够以xml的形式获取数据,能够从中提取“抽象”文本和日期信息,并将其保存为csv格式。(但这只是数据的一部分。)

获取的格式

年|月|日|摘要文本

我打算用gensim lda做我的模型

我以前从来没有真正做过主题建模,需要你的帮助来指导我一步一步地完成这个过程。你知道吗

问题:

  1. csv是输入gensim lda的首选格式吗?你知道吗
  2. 对于动态建模,应该如何在模型中捕获和使用数据的时间方面?你知道吗
  3. 有没有比csv文件更好的方法来组织数据?你知道吗
  4. 我应该用正文而不是摘要吗?你知道吗

希望我能从中学到很多。提前谢谢。你知道吗


Tags: csv数据模型文本主题格式语义动态