如何删除数据集中的重复值：python

c_maxes = hospProfiling.groupby(['Hospital_ID', 'District_ID'], group_keys=False)\ .apply(lambda x: x.ix[x['Hospital_employees'].idxmax()]) print c_maxes c_maxes.to_csv('data/external/HospitalProfilingMaxes.csv')

2条回答

网友

1楼 · 编辑于 2024-05-14 16:51:28

我认为你需要：

hospProfiling.loc[hospProfiling.groupby(['Hospital_ID', 'District_ID'])['Hospital_employees']
                               .idxmax()]

我对另一个答案感到非常惊讶，我做了一些研究，如果函数^{}是否无用：

样品：

^{pr2}$

主要区别在于如何处理另一列，如果使用max它将返回每列的最大值-这里是Hospital_employees和{}：

c_maxes = hospProfiling.groupby(['Hospital_ID','District_ID'],as_index = False).max()
print (c_maxes)
  Hospital_ID District_ID  Hospital_employees   Name  Val
0           A           F                  41  Annie    7
1           A           M                  56    Sam  200
2           B           F                  28  Julie    9
3           B           M                  70  James   20

c_maxes = hospProfiling.groupby(['Hospital_ID','District_ID'],as_index = False)
                       .agg({'Hospital_employees': max})
print (c_maxes)
  Hospital_ID District_ID  Hospital_employees
0           A           F                  41
1           A           M                  56
2           B           F                  28
3           B           M                  70

函数idxmax返回另一列中最大值的索引：

print (hospProfiling.groupby(['Hospital_ID', 'District_ID'])['Hospital_employees'].idxmax())
A            F               1
             M              10
B            F              11
             M               2
Name: Hospital_employees, dtype: int64

然后您只需按^{}选择DataFrame：

c_maxes = hospProfiling.loc[hospProfiling.groupby(['Hospital_ID', 'District_ID'])['Hospital_employees']
                       .idxmax()]
print (c_maxes)
   District_ID Hospital_ID  Hospital_employees   Name  Val
1            F           A                  41  Annie    7
10           M           A                  56   Alan    6
11           F           B                  28  Julie    9
2            M           B                  70   Fred   14

网友

2楼 · 编辑于 2024-05-14 16:51:28

为什么不使用groupbymax方法？在

hopsProfiling.groupby(['Hospital_ID','District_ID'],as_index = False).max()

如果您碰巧有三列以上的列，请将max替换为agg：

^{pr2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何删除数据集中的重复值：python

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >