正在寻找报告的群集简短描述。我应该使用Word2Vec还是Doc2V

1条回答

网友

1楼 · 发布于 2024-04-19 17:50:55

它们非常相似，因此就像使用单一方法一样，您可以尝试以某种严格的方式调整参数以改进结果，您应该同时尝试这两种方法，并比较结果。在

你的数据集听起来很小，与任何一个都需要诱导好的向量相比——Word2Vec在数百万到数十亿单词的微粒上训练得最好，而Doc2Vec发布的结果依赖于数万到数百万的文档。在

如果从单词向量组成文档的摘要向量，您可以利用从其他地方重用的单词向量，但是如果向量的原始训练语料库在词汇/领域语言使用方面与您的语料库相似，那么这将是最有效的。例如，不要期望经过正规新闻写作训练的词汇能够与非正式tweet很好地配合使用，甚至涵盖与非正式tweet相同的词汇，反之亦然。在

如果您有一个更大的文档相似文本语料库来训练Doc2Vec模型，那么您可以在整个文档集上训练一个好的模型，但是只需使用您的小子集，或者为您的小子集重新推断向量，并获得比仅在您的子集上训练的模型更好的结果。在

严格地说，对于聚类来说，如果你有来自其他地方的好的词向量，那么用你目前的小语料库的短文本，你可能需要看看计算成对文档到文档相似度的“单词移动距离”方法。在较大的文档和大型文档集上进行计算可能会很昂贵，但可能会很好地支持集群。在