我现在有两个数据框,一个给捐赠者,一个给筹款者。理想情况下,我试图找到的是,如果有募捐者也捐赠了,如果有,把一些信息复制到我的募捐者数据集中(捐赠者姓名、电子邮件和他们的第一次捐赠)。我的数据有问题 1) 我需要按名称和电子邮件进行匹配,但用户的名称可能略有不同(例如Kat和Kathy)。 2) 捐赠者和募捐者的名字重复。 2a)对于捐赠者,我可以得到唯一的姓名/电子邮件组合,因为我只关心第一个捐赠日期 2b)尽管我需要保留这两行数据,而不是丢失日期之类的数据,但我还是要和募捐者一起。
我现在拥有的示例代码:
import pandas as pd
import datetime
from fuzzywuzzy import fuzz
import difflib
donors = pd.DataFrame({"name": pd.Series(["John Doe","John Doe","Tom Smith","Jane Doe","Jane Doe","Kat test"]), "Email": pd.Series(['a@a.ca','a@a.ca','b@b.ca','c@c.ca','something@a.ca','d@d.ca']),"Date": (["27/03/2013 10:00:00 AM","1/03/2013 10:39:00 AM","2/03/2013 10:39:00 AM","3/03/2013 10:39:00 AM","4/03/2013 10:39:00 AM","27/03/2013 10:39:00 AM"])})
fundraisers = pd.DataFrame({"name": pd.Series(["John Doe","John Doe","Kathy test","Tes Ester", "Jane Doe"]),"Email": pd.Series(['a@a.ca','a@a.ca','d@d.ca','asdf@asdf.ca','something@a.ca']),"Date": pd.Series(["2/03/2013 10:39:00 AM","27/03/2013 11:39:00 AM","3/03/2013 10:39:00 AM","4/03/2013 10:40:00 AM","27/03/2013 10:39:00 AM"])})
donors["Date"] = pd.to_datetime(donors["Date"], dayfirst=True)
fundraisers["Date"] = pd.to_datetime(donors["Date"], dayfirst=True)
donors["code"] = donors.apply(lambda row: str(row['name'])+' '+str(row['Email']), axis=1)
idx = donors.groupby('code')["Date"].transform(min) == donors['Date']
donors = donors[idx].reset_index().drop('index',1)
所以这就留给了我每个捐赠者的第一次捐赠(假设所有名字和电子邮件完全相同的人都是同一个人)。
理想情况下,我希望我的募捐数据集看起来像:
Date Email name Donor Name Donor Email Donor Date
2013-03-27 10:00:00 a@a.ca John Doe John Doe a@a.ca 2013-03-27 10:00:00
2013-01-03 10:39:00 a@a.ca John Doe John Doe a@a.ca 2013-03-27 10:00:00
2013-02-03 10:39:00 d@d.ca Kathy test Kat test d@d.ca 2013-03-27 10:39:00
2013-03-03 10:39:00 asdf@asdf.ca Tes Ester
2013-04-03 10:39:00 something@a.ca Jane Doe Jane Doe something@a.ca 2013-04-03 10:39:00
我试着跟踪这个线程:is it possible to do fuzzy match merge with python pandas?但是不断地得到索引超出范围的错误(猜测它不喜欢在筹款活动中重复的名称):(所以有什么想法我可以匹配/合并这些数据集吗?
使用for循环(这很有效,但速度非常慢,我觉得必须有更好的方法)
fundraisers["donor name"] = ""
fundraisers["donor email"] = ""
fundraisers["donor date"] = ""
for donindex in range(len(donors.index)):
max = 75
for funindex in range(len(fundraisers.index)):
aname = donors["name"][donindex]
comp = fundraisers["name"][funindex]
ratio = fuzz.ratio(aname, comp)
if ratio > max:
if (donors["Email"][donindex] == fundraisers["Email"][funindex]):
ratio *= 2
max = ratio
fundraisers["donor name"][funindex] = aname
fundraisers["donor email"][funindex] = donors["Email"][donindex]
fundraisers["donor date"][funindex] = donors["Date"][donindex]
这里有一些pythonic(在我看来)代码(在您的示例中)没有显式循环:
输出:
如何使用Pandas识别数据帧中的模糊重复
This my data frame
我会使用Jaro Winkler,因为它是目前可用的最高效、最精确的近似字符串匹配算法之一[Cohen, et al.],[Winkler]。
这就是我如何处理来自jellyfish包的Jaro Winkler:
输出:
更新:使用Levenshtein模块中的jaro_winkler提高性能。
相关问题 更多 >
编程相关推荐