我可以在dict类型的字典之外为LDA模型建立语料库文档吗?

2024-04-26 23:59:23 发布

您现在位置:Python中文网/ 问答频道 /正文

在构建Gensim LDA模型时,我使用以下命令获取数据字典

    from gensim.corpora import Dictionary
    dictionary1 = Dictionary(docs)
    dictionary1.filter_extremes(no_below=10, no_above=0.75, keep_n = 1000)

在这1000个最常见的令牌中,我手动删除了500个令牌,以便剩余的令牌与我要生成的主题直接相关。 我怎样才能从这个新的dict类型的词典中进一步形成语料库文档呢?我应该用什么形式来训练我的LDA模型呢?你知道吗


Tags: nofrom模型import命令docsdictionary字典
1条回答
网友
1楼 · 发布于 2024-04-26 23:59:23

您可以对LDA模型进行如下训练:

## Construct corpus and vectorize
corpus = [dictionary1.doc2bow(content) for content in docs]

## train LDA model with 5 topics over 100 passes
## number of topics is chosen randomly in this case
## higher number of passes leads to better results but increases complexity 
lda_model = gensim.models.ldamodel.LdaModel(corpus, num_topics=5, id2word = dictionary1, passes=100)

print(lda_model.print_topics(num_topics=5, num_words=3))

相关问题 更多 >