在两个文档之间找出相似的句子,并计算整个文档中每个部分的相似度得分

2024-06-01 01:28:36 发布

您现在位置:Python中文网/ 问答频道 /正文

我从网上取了这个例子。我的文档一包含:

文件1:

就诊目的:体检。在

病史:这是这位56岁的妇女第一次入院, 世卫组织称,在入院前一周,她一直处于良好的健康状态。当时她注意到胸痛突然发作(几秒钟到一分钟),她形容这是一种迟钝和疼痛的性格。疼痛开始于左胸骨旁区域,并一直辐射到颈部。在

药物:1。Critizin公司。2p、 不另作说明

系统评审:

注意:

每个周末喝一到两杯啤酒;一周一次,晚餐时喝一杯酒。在

心血管疾病:

见HPI

文件2包含:

就诊目的:体检。在

病史:这是这位56岁的妇女第一次入院, 世卫组织称,在入院前一周,她一直处于良好的健康状态。当时她注意到胸痛突然发作(几秒钟到一分钟),她形容这是一种迟钝和疼痛的性格。疼痛开始于左胸骨旁区域,并一直辐射到颈部。她不抽烟,也没有糖尿病。 她3年前被诊断出患有高血压,6年前患了高血压。她没有接受激素替代疗法。有早发冠心病家族史。她不知道自己的胆固醇水平。在

药物:1。Critizin公司。2屈肌

系统评审:

注意:

每个周末喝一到两杯啤酒;一周一次,晚餐时喝一杯酒。在

心血管疾病: 见HPI

泌尿生殖科: 无排尿困难、夜尿症、多尿、血尿或阴道出血。在

我在想文件中的每一行都是基于(.)分割的,而分割部分是基于(:)的。但有时在文件中我也有3.5或者在医学部分所有的药物都被(.)分离,比如医学1你好。2你好。在

如何计算两个文件的这些部分之间的相似度得分。在


Tags: 文件目的区域状态药物几秒钟病史性格
1条回答
网友
1楼 · 发布于 2024-06-01 01:28:36

您可以使用^{}模块。在

This module provides classes and functions for comparing sequences. It can be used for example, for comparing files, and can produce difference information in various formats, including HTML and context and unified diffs. For comparing directories and files, see also, the filecmp module.

在您的例子中,只要序列元素是散列的,就需要difflib.SequenceMatcher类来比较任何类型的序列对。

示例:

from difflib import SequenceMatcher
text_1 = "private Thread currentThread;"
text_2 = "private volatile Thread currentThread;"
s = SequenceMatcher(lambda x: x == " ",
                    text_1,
                    text_2)

现在为了测量序列的相似性,使用ratio(),它在[0, 1]中返回一个float。根据经验,值大于0.6的ratio()意味着序列非常匹配。在

^{pr2}$

相关问题 更多 >