如何避免南进np.哪里在两个数据帧之间？

customers = pd.DataFrame({'firstname':['stack','Bar Bar','Foo Bar','jim','john','mary','jim'], 'lastname':['overflow','Bar','Foo Bar','ryan','con','sullivan','Ryan'], 'email':[np.nan,'Bar','Foo Bar','jim@com','john@com','mary@com','Jim@com']}) customers firstname lastname email 0 jim bob NaN 1 Bar Bar Bar bar@com 2 Foo Bar Foo Bar foo@com 3 jim ryan jim@com 4 john con john@com 5 mary sullivan hello@com 6 jim Ryan jon@com

emails = pd.DataFrame({'emails':['mary@com','bar@com','foo@com','jim@com','john@com',np.nan,'jon@com']}) emails emails 0 mary@com 1 bar@com 2 foo@com 3 jim@com 4 john@com 5 NaN 6 jon@com

customers['check'] = np.where(customers['email'].isin(emails['emails']), 'match', 'no_match') customers firstname lastname email check 0 jim bob NaN match 1 Bar Bar Bar bar@com match 2 Foo Bar Foo Bar foo@com match 3 jim ryan jim@com match 4 john con john@com match 5 mary sullivan hello@com no_match 6 jim Ryan jon@com match

def lam(r): # if the email is nan, return no_email if r == np.nan: return 'no_email' elif r in emails['emails']: return 'match' elif not r in emails['emails']: return 'no_match' # apply this lambda operation to the customer email row and return results to customer['check'] customers['check'] = customers.apply(lambda row: lam(row['email']), axis=1)

2条回答

网友

1楼 · 编辑于 2024-05-16 21:43:58

isin与np.select

m1=customers.email.isin(emails.emails.dropna().values)
m2=customers.email.notna()
customers['check']=np.select([m1&m2,~m1&m2],['match','no match'],default='no_email')
customers
  firstname  lastname     email     check
0     stack  overflow       NaN  no_email        
1   Bar Bar       Bar       Bar  no match
2   Foo Bar   Foo Bar   Foo Bar  no match
3       jim      ryan   jim@com     match
4      john       con  john@com     match
5      mary  sullivan  mary@com     match
6       jim      Ryan   Jim@com  no match

网友

2楼 · 编辑于 2024-05-16 21:43:58

将电子邮件保存为熊猫系列。有点不正统的做法。你知道吗

*1用于将布尔值转换为整数。你知道吗

emails = pd.Series(['mary@com','bar@com','foo@com','jim@com','john@com',np.nan,'jon@com'])

(customers['email'].isin(emails)*1+customers['email'].isnull()*1).map({0:'No-Match',1:'Match',2:'No-Record'})

0   No-Record
1   No-Match
2   No-Match
3   Match
4   Match
5   Match
6   No-Match

相关问题更多 >

编程相关推荐

热门问题

热门文章