可靠地转换逗号/分号分隔的“last，first，last，first”名称列表

First Last Last, First Last, First, A. Last, First Middle Last, First, Last, First A., Last, First, Ph.D, Last, First, M.D., Last, J. R, Last, O. Last, First Middle plus other names, Last, First, Jr., Last, First, Sr. Last, First; Last, First A.; Last, First Middle First Last, First Last, First A. Last, Last, First

1条回答

网友

1楼 · 发布于 2024-04-16 23:32:23

这是一个很难解析的问题，但这里有一个大致的草图，它做得相当好。你知道吗

import sys
import re

SUFFIXES = set('''
    Ph.D
    M.D.
    Jr.
    Sr.
'''.split())

regexes = dict(
    punct  = re.compile(r'\s*[;,]\s*'),
    space  = re.compile(r'\s*'),
    middle = re.compile(r'^[A-Z]\.?$'),
)

def main(file_path):
    with open(file_path) as fh:
        for line in fh:
            for name in parse_line(line):
                print name

def parse_line(line):
    tokens = get_tokens(line.strip())
    name = []
    for t in tokens:
        if t in SUFFIXES:
            name.append(t)
        elif regexes['middle'].search(t):
            name.append(t)
        elif len(name) > 1:
            yield name
            name = [t]
        else:
            name.append(t)
    if name:
        yield name

def get_tokens(line):
    k = 'punct' if (';' in line or ',' in line) else 'space'
    return regexes[k].split(line.strip())

main(sys.argv[1])

结果并不完美。现在还不清楚，如果不在算法中加入更多的名称智能，如何区分下面的三个问题案例注释（#1、#2和#3）。当您看到一个包含空格的标记时，它是第一个中间组合还是第一个最后一个组合？这种模棱两可的情况会破坏将标记组合在一起以形成一个人的名字的逻辑。你可以检查代币上是否有空格：如果有的话，就把它分开（这可以解决#2和#3），但这会使#1更糟。你知道吗

['First', 'Last']
['Last', 'First']
['Last', 'First', 'A.']
['Last', 'First Middle']
['Last', 'First']
['Last', 'First A.']
['Last', 'First', 'Ph.D']
['Last', 'First', 'M.D.']
['Last', 'J. R']
['Last', 'O.']
['Last', 'First Middle plus other names']    # 1
['Last', 'First', 'Jr.']
['Last', 'First Sr.']
['Last', 'First']
['Last', 'First A.']
['Last', 'First Middle']
['First Last', 'First Last']                 # 2
['First A. Last', 'Last']
['First']                                    # 3

相关问题更多 >

编程相关推荐

热门问题

热门文章