我从网上取了这个例子。我的文档一包含:
文件1:
就诊目的:体检。在
病史:这是这位56岁的妇女第一次入院, 世卫组织称,在入院前一周,她一直处于良好的健康状态。当时她注意到胸痛突然发作(几秒钟到一分钟),她形容这是一种迟钝和疼痛的性格。疼痛开始于左胸骨旁区域,并一直辐射到颈部。在
药物:1。Critizin公司。2p、 不另作说明
系统评审:
注意:
每个周末喝一到两杯啤酒;一周一次,晚餐时喝一杯酒。在
心血管疾病:
见HPI
文件2包含:
就诊目的:体检。在
病史:这是这位56岁的妇女第一次入院, 世卫组织称,在入院前一周,她一直处于良好的健康状态。当时她注意到胸痛突然发作(几秒钟到一分钟),她形容这是一种迟钝和疼痛的性格。疼痛开始于左胸骨旁区域,并一直辐射到颈部。她不抽烟,也没有糖尿病。 她3年前被诊断出患有高血压,6年前患了高血压。她没有接受激素替代疗法。有早发冠心病家族史。她不知道自己的胆固醇水平。在
药物:1。Critizin公司。2屈肌
系统评审:
注意:
每个周末喝一到两杯啤酒;一周一次,晚餐时喝一杯酒。在
心血管疾病: 见HPI
泌尿生殖科: 无排尿困难、夜尿症、多尿、血尿或阴道出血。在
我在想文件中的每一行都是基于(.)分割的,而分割部分是基于(:)的。但有时在文件中我也有3.5或者在医学部分所有的药物都被(.)分离,比如医学1你好。2你好。在
如何计算两个文件的这些部分之间的相似度得分。在
您可以使用^{} 模块。在
在您的例子中,只要序列元素是散列的,就需要difflib.SequenceMatcher,类来比较任何类型的序列对。
示例:
现在为了测量序列的相似性,使用
^{pr2}$ratio()
,它在[0, 1]
中返回一个float
。根据经验,值大于0.6的ratio()意味着序列非常匹配。在相关问题 更多 >
编程相关推荐