我看到的是一组数据框中的临时雇员。我正在使用熊猫,我需要在每个人的集合中放置副本。所以对于Greene,我只希望apnt_ymd
列中有一个唯一的日期。集合中有两个2012-04-08
日期,我只需要一个。你知道吗
在过去,我得到了一些类似的帮助,通过使用以下代码查看数据集中的min(和max,使用idxmax)日期:
first_apt = df.loc[df.groupby('ssno')['apnt_ymd'].idxmin()]
我需要类似的东西,将删除数据集中所有重复的日期。你知道吗
如何使用drop_duplicates
方法删除每个人的记录集的所有重复日期?或者有其他的方法-比如申请?你知道吗
ssno nm_emp_lst nm_emp_fst apnt_ymd
299769 123456789 GREENE ALTON 2014-05-04
192323 123456789 GREENE ALTON 2013-04-07
192324 123456789 GREENE ALTON 2012-04-08
192324 123456789 GREENE ALTON 2012-04-08
102872 123456789 GREENE ALTON 2011-04-10
175701 987654321 DUBE JEFF 2013-04-21
177583 777888999 IRVING SARA 2013-05-13
4785 777888999 IRVING SARA 2012-05-16
222300 444444444 LEMERE GEORGE 2013-04-14
24386 444444444 LEMERE GEORGE 2012-03-25
24434 444444444 LEMERE GEORGE 2011-05-08
如果我理解正确,那么您可以在dataframe上使用^{} ,传递要检查重复项的列的列表:
编辑 根据我们的私人聊天,以下是您想要的:
相关问题 更多 >
编程相关推荐