我有大约2万份60-150字的文件。在这20K个文档中,有400个文档已知类似的文档。这400个文档作为我的测试数据。你知道吗
我正在尝试使用gensim doc2vec查找这400个数据集的类似文档。“句子和文档的分布式表示”一文说,“PV-DM和PV-DBOW的组合通常效果更好(在IMDB中为7.42%),因此建议使用。”
所以我想把这两种方法的向量结合起来,找出所有列车文档的余弦相似度,并选择余弦距离最小的前5个。你知道吗
那么,将这两种方法的向量结合起来的有效方法是什么:加法、平均法还是其他方法???你知道吗
在组合这两个向量之后,我可以对每个向量进行归一化,然后找到余弦距离。你知道吗
Edit:刚刚看到您想要一个
String
作为arg你可以用这个:
请注意,这有无错误检查
编辑
我修复了OP在下面评论中指出的错误。这应该会产生上述原始问题所要求的结果
下面是你使用它的方式:
(注意:假设您使用\n作为行之间的分隔符):
相关问题 更多 >
编程相关推荐