给出两个长度相同的python列表。如何返回相似值的最佳匹配？

网友

1楼 · 编辑于 2024-06-09 03:56:45

使用此处定义的函数：http://hetland.org/coding/python/levenshtein.py

>>> for i in list_1:
...     print i, '==>', min(list_2, key=lambda j:levenshtein(i,j))
...

^{pr2}$

你可以利用functools.partial而不是兰姆达

>>> from functools import partial
>>> for i in list_1:
...     print i, '==>', min(list_2, key=partial(levenshtein,i))
...

^{pr2}$

网友

2楼 · 编辑于 2024-06-09 03:56:45

下面是给定解决方案的一个变体，它还优化了全局最小距离。它使用Munkres assignment algorithm 以确保弦对是最佳的。在

from munkres import Munkres
def match_lists(l1, l2):
    # Compute a matrix of string distances for all combinations of
    # items in l1 and l2.
    matrix = [[levenshtein(i1, i2) for i2 in l2] for i1 in l1]

    # Now figure out what the global minimum distance between the
    # pairs is.
    indexes = Munkres().compute(matrix)
    for row, col in indexes:
        yield l1[row], l2[col]

l1 = [
    'bolton',
    'manchester city',
    'manchester united',
    'wolves',
    'liverpool',
    'sunderland',
    'wigan',
    'norwich',
    'arsenal',
    'aston villa',
    'chelsea',
    'fulham',
    'newcastle utd',
    'stoke city',
    'everton',
    'tottenham',
    'blackburn',
    'west brom',
    'qpr',
    'swansea'
    ]
l2 = [
    'bolton wanderers',
    'manchester city',
    'manchester united',
    'wolverhampton',
    'liverpool',
    'norwich city',
    'sunderland',
    'wigan athletic',
    'arsenal',
    'aston villa',
    'chelsea',
    'fulham',
    'newcastle united',
    'stoke city',
    'everton',
    'tottenham hotspur',
    'blackburn rovers',
    'west bromwich',
    'queens park rangers',
    'swansea city'
    ]
for i1, i2 in match_lists(l1, l2):
    print i1, '=>', i2

对于所给出的列表，其中的差异更多地源于备选方案拼写和昵称而不是拼写错误，这种方法比使用levenshtein或difflib。munkres模块可以在这里找到： http://software.clapper.org/munkres/

网友

3楼 · 编辑于 2024-06-09 03:56:45

您可以尝试difflib：

import difflib

list_1 = ['J. Payne', 'George Bush', 'Billy Idol', 'M Stuart', 'Luc van den Bergen']
list_2 = ['John Payne', 'George W. Bush', 'Billy Idol', 'M. Stuart', 'Luc Bergen']

mymap = {}
for elem in list_1:
    closest = difflib.get_close_matches(elem, list_2)
    if closest:
        mymap[elem] = closest[0]

print mymap

输出：

^{pr2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章

给出两个长度相同的python列表。如何返回相似值的最佳匹配？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >