如何仅为dupli的最后一次出现标识和设置列值

store_id stock_number merchandise_id date_acquired color price MSRP csv_date 12973 7382 UISN78008 04/11/2017 Red $3200 $3650 01/31/2017 45973 9889 YHAN79807 08/09/2017 White $3600 $3650 01/31/2017 ... 45973 9889 YHAN79807 08/09/2017 White $3600 $3650 03/31/2017

1条回答

网友

1楼 · 发布于 2024-04-19 17:36:56

我想你需要：

g = df.groupby(['merchandise_id'])
df1 = df.set_index(['merchandise_id'])
df['dup_index'] = df1.index.map(lambda ind: g.indices[ind][len(g.indices[ind])-1])
print (df)
   store_id  stock_number merchandise_id date_acquired  color  price   MSRP  \
0     12973          7382      UISN78008    04/11/2017    Red  $3200  $3650   
1     45973          9889      YHAN79807    08/09/2017  White  $3600  $3650   
2     45973          9889      YHAN79807    08/09/2017  White  $3600  $3650   

     csv_date  dup_index  
0  01/31/2017          0  
1  01/31/2017          2  
2  03/31/2017          2

或者，如果需要仅标识最后一个重复的行，请使用带&的双条件：

print (df)
   store_id  stock_number merchandise_id date_acquired  color  price   MSRP  \
0     12973          7382      UISN78008    04/11/2017    Red  $3200  $3650   
1     45973          9889      YHAN79807    08/09/2017  White  $3600  $3650   
2     45973          9889      YHAN79807    08/09/2017  White  $3600  $3650   
3     45973          9889      YHAN79807    08/09/2017  White  $3600  $3650   

     csv_date  
0  01/31/2017  
1  01/31/2017  
2  01/31/2017  
3  03/31/2017  


m1 = ~df.duplicated(['merchandise_id'], keep='last')
m2 = df.duplicated(['merchandise_id'], keep=False)
m = m1 & m2
df.loc[m, 'new'] = 'succeed'
print (df)
   store_id  stock_number merchandise_id date_acquired  color  price   MSRP  \
0     12973          7382      UISN78008    04/11/2017    Red  $3200  $3650   
1     45973          9889      YHAN79807    08/09/2017  White  $3600  $3650   
2     45973          9889      YHAN79807    08/09/2017  White  $3600  $3650   
3     45973          9889      YHAN79807    08/09/2017  White  $3600  $3650   

     csv_date      new  
0  01/31/2017      NaN  
1  01/31/2017      NaN  
2  01/31/2017      NaN  
3  03/31/2017  succeed

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何仅为dupli的最后一次出现标识和设置列值

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >