通过Gensim维护数据帧索引

2024-05-15 08:19:33 发布

您现在位置:Python中文网/ 问答频道 /正文

与:Getting string version of document by id in Gensim

我正在为文档相似性实现gensim。在检索了一个新文档的gensim相似性对象索引和相似性分数之后,我想将该索引追溯到语料库中的原始文档。根据上述问题的答案,似乎没有内置的方法来实现这一点。在

输入我语料库的df如下所示:

id    text
1-23  She loathes apples
1-52  I like rocks
1-43  You like ice cream
1-67  He hates bananas

在构建了gensim模型(根据本教程中的数据帧对其进行了调整:https://www.oreilly.com/learning/how-do-i-compare-document-similarity-using-python)之后,我运行以下新文档:

^{pr2}$

我可以用这个函数得到相似对象的最大相似度得分和索引:

^{3}$

将元组解包到单独的df列中之后:

id    text              maxSim    index
1-98  I like neutrons   0.5678    4

相似对象的索引与原始数据帧的索引不匹配。在

如何将原始数据帧索引携带到相似对象中?或者,我如何将id字段从原始数据帧对象携带到相似对象中?我知道我必须在相似性对象索引和原始数据帧索引之间保持一个单独的映射-这个映射是什么样子的?在

期望结果:

id    text              maxSim    index   originalTextID    originalText
1-98  I like neutrons   0.5678    4       1-52              I like rocks    

Tags: 对象text文档iddf原始数据index相似性