Python中Stata-drop-duplicates代码的等价性

data = {'date': ['2014-05-01', '2014-05-01','2014-05-01','2014-05-01','2014-05-01', '2014-05-02','2014-05-02','2014-05-02','2014-05-02','2014-05-03', '2014-05-03','2014-05-03','2014-05-03'],'id':[1, 1, 2, 3, 4, 1, 2, 2, 3, 1, 1, 2, 3],'obs': [10, 10, 5, 7, 3, 2, 4, 4, 3, 8, 8, 6, 11]} df1 = pd.DataFrame(data, columns = ['date', 'id','obs']) df1.index = df1['date'] del df1['date'] df1

Out[1]: id obs date 2014-05-01 1 10 2014-05-01 1 10 2014-05-01 2 5 2014-05-01 3 7 2014-05-01 4 3 2014-05-02 1 2 2014-05-02 2 4 2014-05-02 2 4 2014-05-02 3 3 2014-05-03 1 8 2014-05-03 1 8 2014-05-03 2 6 2014-05-03 3 11

Out[2]: id obs date 2014-05-01 1 10 2014-05-01 2 5 2014-05-01 3 7 2014-05-01 4 3 2014-05-02 1 2 2014-05-02 2 4 2014-05-02 3 3 2014-05-03 1 8 2014-05-03 2 6 2014-05-03 3 11

1条回答

网友

1楼 · 发布于 2024-05-23 19:29:18

想法是通过^{}从索引创建列，然后将^{}与^{}一起使用，或者通过^{}创建MultiIndex，然后使用^{}：

df1 = df1[~df1.reset_index().duplicated(subset=['date','id']).values]
#alternative
#df1 = df1[~df1.set_index('id', append=True).index.duplicated()]
print (df1)
            id  obs
date               
2014-05-01   1   10
2014-05-01   2    5
2014-05-01   3    7
2014-05-01   4    3
2014-05-02   1    2
2014-05-02   2    4
2014-05-02   3    3
2014-05-03   1    8
2014-05-03   2    6
2014-05-03   3   11

相关问题更多 >

编程相关推荐

热门问题

热门文章