正则表达式：搜索包含多个部分的多个单词

3条回答

网友

1楼 · 编辑于 2024-05-14 23:59:23

不是真正的“正则表达式”问题；您应该考虑字符串的模糊比较，即Levenshtein distance或diff

见https://stackoverflow.com/questions/682367/good-python-modules-for-fuzzy-string-comparison

编辑：一些示例代码：

import Levenshtein

base_strings = [
    "R Deep Transverse Metatarsal Ligament 4 GEODE",
    "R Distal JointCapsule 1 GEODE",
    "R Dorsal Calcaneocuboid Ligament GEODE",
    "R Dorsal Carpometacarpal Ligament 2 GEODE",
    "R Dorsal Cuboideavicular Ligament GEODE",
    "R Dorsal Tarsometatarsal Ligament 5 GEODE",
    "R Elbow Capsule GEODE",
    "R F Distal JointCapsule 1 GEODE",
    "R Fibular Collateral Bursa GEODE",
    "R Fibular Collateral Ligament GEODE",
    "R Fibular Ligament GEODE"
]

def main():
    print("Medical term matcher:")
    while True:
        t = raw_input('Match what? ').strip()
        if len(t):
            print("Best match: {}".format(sorted(base_strings, key = lambda x: Levenshtein.ratio(x, t), reverse=True)[0]))
        else:
            break

if __name__=="__main__":
    main()

实际产量：

^{pr2}$

编辑2:“如果有多个答案，它应该显示全部”—基本字符串是不同程度的所有答案。那么，问题是，你想要使用什么样的相似度临界值；也许是“所有答案至少是最佳匹配的90%”之类的东西？在

网友
2楼 · 编辑于 2024-05-14 23:59:23

一个简单的Python式解决方案，它按回答完成任务，并且不区分大小写：
import re def search(request, base): pattern = r'.*' + re.sub(r'\W', '.*', request.strip()) + '.*' return [item for item in base if re.match(pattern, item, re.I)]
基本上，我们创建了一个简单的正则表达式，它以原始顺序匹配包含请求所有子字符串（所有由非单词字符分隔的字符串）的字符串，其中包括前、中、后。在
例如，一个请求'R De Me Li'变成一个模式r'.*R.*De.*Me.Li.*'
然后，我们返回所有匹配结果的列表。由于re.match()中的标志re.I，它不区分大小写。在
然后，它可以按预期工作，您可以尝试使用底座：
^{pr2}$
一些示例请求：
>>> search('R De Me Li', base) ['R Deep Transverse Metatarsal Ligament 4 GEODE'] >>> search('Fi Colla', base) ['R Fibular Collateral Bursa GEODE', 'R Fibular Collateral Ligament GEODE'] >>> search('bow ODE', base) ['R Elbow Capsule GEODE'] >>> search('Car', base) ['R Dorsal Carpometacarpal Ligament 2 GEODE'] >>> search('F', base) ['R F Distal JointCapsule 1 GEODE', 'R Fibular Collateral Bursa GEODE', 'R Fibular Collateral Ligament GEODE', 'R Fibular Ligament GEODE'] >>> search('F Ca', base) ['R F Distal JointCapsule 1 GEODE'] >>> search('F Co', base) ['R Fibular Collateral Bursa GEODE', 'R Fibular Collateral Ligament GEODE']
注意：只有在请求和项中的顺序相同时，它才会匹配（即'ode bow'，因为请求与['R Elbow Capsule GEODE']不匹配，而{}将匹配）。在
注意：我不认为模糊搜索在这里有多大帮助，至少一开始是，因为它是基于诸如Levenshtein（编辑距离）这样的距离的，它在比如“Fi”和“Fibular”（一个词的距离是5。。。在35%的情况下，我不是苏尔这是一个好主意匹配。。。如果您非常确定请求中只包含完整的单词，并且可能会有少量的错误输入，则可以使用它）

网友
3楼 · 编辑于 2024-05-14 23:59:23

您可以使用标准发行版中的difflib执行此操作：

import difflib

s="""R Deep Transverse Metatarsal Ligament 4 GEODE
R Distal JointCapsule 1 GEODE
R Dorsal Calcaneocuboid Ligament GEODE
R Dorsal Carpometacarpal Ligament 2 GEODE
R Dorsal Cuboideavicular Ligament GEODE
R Dorsal Tarsometatarsal Ligament 5 GEODE
R Elbow Capsule GEODE
R F Distal JointCapsule 1 GEODE
R Fibular Collateral Bursa GEODE
R Fibular Collateral Ligament GEODE
R Fibular Ligament GEODE""".split('\n')

qs="""R De Me Li
Fi Colla
bow ODE""".split('\n')

for q in qs:
    print "results for '{}':".format(q)
    matches=difflib.get_close_matches(q,s,3,0.3)
    for i,e in enumerate(matches,1):
        print "\t{}. {}".format(i,e)

印刷品：

^{pr2}$
结合cblab's answer结合regex和difflib，可以得到：
s="""R Deep Transverse Metatarsal Ligament 4 GEODE R Distal JointCapsule 1 GEODE R Dorsal Calcaneocuboid Ligament GEODE R Dorsal Carpometacarpal Ligament 2 GEODE R Dorsal Cuboideavicular Ligament GEODE R Dorsal Tarsometatarsal Ligament 5 GEODE R Elbow Capsule GEODE R F Distal JointCapsule 1 GEODE R Fibular Collateral Bursa GEODE R Fibular Collateral Ligament GEODE R Fibular Ligament GEODE""".split('\n') s=set(s) qs="""R De Me Li Fi Colla bow ODE Car Do Car ral lar R De Me 4 R Do Carp""".split('\n') for q in sorted(qs): print "results for '{}':".format(q) pattern = r'.*' + re.sub(r'\W', '.*', q.strip()) + '.*' matches=[item for item in s if re.match(pattern, item, re.I)] for e in difflib.get_close_matches(q,s,3,0.33): if e not in matches: matches.append(e) for i,e in enumerate(matches,1): print "\t{}. {}".format(i,e) else: if len(matches)==0: print "\tNo matches"
印刷品：
results for 'Car': 1. R Dorsal Carpometacarpal Ligament 2 GEODE results for 'Do Car': 1. R Dorsal Carpometacarpal Ligament 2 GEODE results for 'Fi Colla': 1. R Fibular Collateral Bursa GEODE 2. R Fibular Collateral Ligament GEODE results for 'R De Me 4': 1. R Deep Transverse Metatarsal Ligament 4 GEODE results for 'R De Me Li': 1. R Deep Transverse Metatarsal Ligament 4 GEODE 2. R Dorsal Calcaneocuboid Ligament GEODE results for 'R Do Carp': 1. R Dorsal Carpometacarpal Ligament 2 GEODE 2. R Elbow Capsule GEODE 3. R Distal JointCapsule 1 GEODE results for 'bow ODE': 1. R Elbow Capsule GEODE results for 'ral lar': No matches

相关问题更多 >

编程相关推荐

热门问题

热门文章