如何在正则表达式中添加条件？

lst = [Penelope Deans, 1/1/2020, Digital Marketer at XXX, Corinne M. Percell, 1/1/2020, Tereasa T., Licensed Real Estate at YYY] df = pd.DataFrame(lst) df Info 0 Penelope Deans 1 1/1/2020 2 Digital Marketer at XXX 3 Corinne M. Percell 4 1/1/2020 5 Tereasa T. 6 Licensed Real Estate at YYY name_pat = r"^[A-Z][a-z]+,?\s+(?:[A-Z][a-z]*\.?\s*)?[A-Z][a-z]+" df['Info'].str.findall(name_pat)

1条回答

网友

1楼 · 发布于 2024-06-01 01:40:46

关键是决定什么决定了一个值是名称，什么不是名称

从您的示例中，似乎'Penelope Deans'、'Corinne M. Percell'和'Tereasa T.'是名称，而'1/1/2020'不是名称（因为它有数字和斜杠），而'Digital Marketer at XXX'也不是，因为它遵循<namelike> at <namelike>模式

请注意，根据这些规则'John at Smith'也不会是名称。但是，由于“at”在英语中不是一个普通的贵族语气词，所以它应该能起作用，而且你也不希望专门涵盖外国名字（即使这样，“at”在名字中也很少见）

使用正则表达式的Python解决方案：

import pandas as pd

lst = [
    'Penelope Deans', '1/1/2020', 'Digital Marketer at XXX', 'Corinne M. Percell', 
    '1/1/2020', 'Tereasa T.', 'Licensed Real Estate at YYY'
]

df = pd.DataFrame(lst)

df = df[df[0].str.match('^((?! at )[A-z\s\.])+$')]

print(df)

结果:

                    0
0      Penelope Deans
3  Corinne M. Percell
5          Tereasa T.

相关问题更多 >

编程相关推荐

热门问题

热门文章