正在寻找报告的群集简短描述。我应该使用Word2Vec还是Doc2V

2024-04-19 17:50:55 发布

您现在位置:Python中文网/ 问答频道 /正文

所以,我有将近2000份报告,每个报告都有一个相关的问题的简短描述。我的目标是把所有这些都集中起来,这样我们就可以在这些报告中找到不同的趋势。在

我想用一些上下文特征。现在,我已经使用了Word2Vec并认为这是一个好的选择,但我也Doc2Vec而且我不太确定对于这个用例来说什么是更好的选择。在

如有任何反馈,我们将不胜感激。在


Tags: 目标报告word2vec特征用例趋势doc2vec
1条回答
网友
1楼 · 发布于 2024-04-19 17:50:55

它们非常相似,因此就像使用单一方法一样,您可以尝试以某种严格的方式调整参数以改进结果,您应该同时尝试这两种方法,并比较结果。在

你的数据集听起来很小,与任何一个都需要诱导好的向量相比——Word2Vec在数百万到数十亿单词的微粒上训练得最好,而Doc2Vec发布的结果依赖于数万到数百万的文档。在

如果从单词向量组成文档的摘要向量,您可以利用从其他地方重用的单词向量,但是如果向量的原始训练语料库在词汇/领域语言使用方面与您的语料库相似,那么这将是最有效的。例如,不要期望经过正规新闻写作训练的词汇能够与非正式tweet很好地配合使用,甚至涵盖与非正式tweet相同的词汇,反之亦然。在

如果您有一个更大的文档相似文本语料库来训练Doc2Vec模型,那么您可以在整个文档集上训练一个好的模型,但是只需使用您的小子集,或者为您的小子集重新推断向量,并获得比仅在您的子集上训练的模型更好的结果。在

严格地说,对于聚类来说,如果你有来自其他地方的好的词向量,那么用你目前的小语料库的短文本,你可能需要看看计算成对文档到文档相似度的“单词移动距离”方法。在较大的文档和大型文档集上进行计算可能会很昂贵,但可能会很好地支持集群。在

相关问题 更多 >