当不是每个人都有中间名的时候，把名字分为第一名、中间名和最后一名

name id John McNamara 3498 Jane Adams, M.D. 6725 Nour Abd Almohsen Jr M.D. 0197 Alex Ambrose PhD 3287 Nancy Ann Brown, MPH, PhD 9127 Kathy W. 4389 Jack Joshua Smith White 6756

first_name middle_name last_name suffix title id John McNamara 3498 Jane Adams M.D. 6725 Nour Abd Almohsen Jr M.D. 0197 Alex Ambrose PhD 3287 Nancy Ann Brown MPH, PhD 9127 Jack J Smith White

1条回答

网友

1楼 · 发布于 2024-05-16 13:24:45

如果您能够在dataframe中获得所有可能的标题，那么可以像这样解析您的名称：

import pandas as pd

# Create the dataframe with provided sample data
names = ['John McNamara','Nour Abd Almohsen Jr M.D.','Nancy Ann Brown, MPH, PhD','MPH']
med_id = ['3498', '6725', '0197', '3287', '9127','']

df = pd.DataFrame(list(zip(names, med_id)), columns =['name', 'id']) 
names = df['name'].to_list()


# List to fill up given the dataframe content
suffix = ['M.D.', 'PhD', 'MPH']
garbages = [',']

# iterate over all the name in your list
clean_names = []
first_name = []
middle_name = []
last_name = []
title = []

# Remove suffix and junk from the names
for name in names:
    to_remove = suffix + garbages
    clean_name = name
    for element in to_remove:
        clean_name = clean_name.replace(element, '')
    clean_names.append(clean_name)

# split the clean_names into first middle and last name
for (name,original_name) in zip(clean_names,names):
    data = name.split()

    # error checking for messed up entries
    if len(data) < 2:
        first_name.append("")
        middle_name.append("")
        last_name.append("")
        title.append("")
        print("Entry : " + original_name + " is malformed")
        continue

    # Add the right firstname lastname and middle name structure
    first_name.append(data[0])
    if len(data) == 2:
        middle_name.append("")
        last_name.append(data[1])
    else:
        middle_name.append(data[1])
        last_name.append(" ".join(data[2:]))

    # Add the right title
    title.append(' ,'.join([suf for suf in suffix if suf in original_name]))

df['first_name'] = first_name
df['middle_name'] = middle_name
df['last_name'] = last_name
df['title'] = title
df = df.drop(columns = ['name','id'])

print(df)

以下是您提供的输出，包括一个有问题的条目：

但是，数据集在标点符号方面看起来非常不规则

相关问题更多 >

编程相关推荐

热门问题

热门文章

当不是每个人都有中间名的时候，把名字分为第一名、中间名和最后一名

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >