与:Getting string version of document by id in Gensim
我正在为文档相似性实现gensim
。在检索了一个新文档的gensim
相似性对象索引和相似性分数之后,我想将该索引追溯到语料库中的原始文档。根据上述问题的答案,似乎没有内置的方法来实现这一点。在
输入我语料库的df如下所示:
id text
1-23 She loathes apples
1-52 I like rocks
1-43 You like ice cream
1-67 He hates bananas
在构建了gensim
模型(根据本教程中的数据帧对其进行了调整:https://www.oreilly.com/learning/how-do-i-compare-document-similarity-using-python)之后,我运行以下新文档:
我可以用这个函数得到相似对象的最大相似度得分和索引:
^{3}$将元组解包到单独的df列中之后:
id text maxSim index
1-98 I like neutrons 0.5678 4
相似对象的索引与原始数据帧的索引不匹配。在
如何将原始数据帧索引携带到相似对象中?或者,我如何将id
字段从原始数据帧对象携带到相似对象中?我知道我必须在相似性对象索引和原始数据帧索引之间保持一个单独的映射-这个映射是什么样子的?在
期望结果:
id text maxSim index originalTextID originalText
1-98 I like neutrons 0.5678 4 1-52 I like rocks
目前没有回答
相关问题 更多 >
编程相关推荐