对返回“None”的两列应用操作

import pandas as pd df = pd.DataFrame({'emails':['jim@gmailcom','bob@gmail.com','mary@gmaicom','bobby@gmail.com'], 'result':['','','','']}) df emails result 0 jim@gmailcom 1 bob@gmail.com 2 mary@gmaicom 3 bobby@gmail.com # common mistakes: correct_domain = {'gmailcom': 'gmail.com', 'gmaicom': 'gmail.com', 'gmaillom': 'gmail.com', 'gmalcom': 'gmail.com'}

def clean_emails(x): # for each domain(key) in this dict ( e.g. 'gmailcom':'gmail.com') for mistake in correct_domain: # if incorrect domain ('gmailcom') is in the email we're checking if mistake in x['emails']: # replace it with the dict value which is the correctly formatted domain ('gmail.com') x['emails'] = x['emails'].replace(mistake ,correct_domain[mistake ]) # record result x['result'] = 'email cleaned' else: x['result'] = 'no cleaning needed'

3条回答

网友

1楼 · 编辑于 2024-05-14 23:11:41

我一直在想，你已经有很多解决方案了。按照你的逻辑，我们可以做到：


    df = pd.DataFrame({'emails':['jim@gmailcom','bob@gmail.com','mary@gmaicom','bobby@gmail.com']})

    regexExp = [r'gmailcom$', r'gmaicom$', r'gmaillom', r'gmalcom']

    df2 = df.replace(regex=regexExp, value='gmail.com')

    result = []
    for dfLines, df2Lines in zip(df.itertuples(),df2.itertuples()):
        if df2Lines.emails != dfLines.emails:
            result.append('email cleaned')
        else:
            result.append('no cleaning needed')

    df2['result'] = result

    print(df2)

网友

2楼 · 编辑于 2024-05-14 23:11:41

为什么不是两行：

df['result'] = df['emails'].str.contains('|'.join(correct_domain.keys()).map({0:'email cleaned', 1:'no cleaning needed'})
df['emails'] = df['emails'].str.replace('|'.join(correct_domain.keys()),list(correct_domain.values())[0])

现在：

print(df)

将是：

            emails              result
0    jim@gmail.com       email cleaned
1    bob@gmail.com  no cleaning needed
2   mary@gmail.com       email cleaned
3  bobby@gmail.com  no cleaning needed

网友

3楼 · 编辑于 2024-05-14 23:11:41

如有必要，使用^{}进行检查，使用^{}进行按条件列的清理，然后使用^{}和callback进行仅由字典替换的必要行：

pat = '|'.join(correct_domain.keys())
m = df['emails'].str.contains(pat, na=False)
df['result'] = np.where(m, 'email cleaned', 'no cleaning needed')
df.loc[m, 'emails'] = (df.loc[m, 'emails']
                         .str.replace(pat, lambda x: correct_domain[x.group()], regex=True))

print (df)
            emails              result
0    jim@gmail.com       email cleaned
1    bob@gmail.com  no cleaning needed
2   mary@gmail.com       email cleaned
3  bobby@gmail.com  no cleaning needed

相关问题更多 >

编程相关推荐

热门问题

热门文章