如何删除数据集中的重复值：python问题的回答

如何删除数据集中的重复值：python

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

我认为你需要： <pre><code>hospProfiling.loc[hospProfiling.groupby(['Hospital_ID', 'District_ID'])['Hospital_employees'] .idxmax()] </code></pre> 我对另一个答案感到非常惊讶，我做了一些研究，如果函数<a href="http://pandas.pydata.org/pandas-docs/stable/generated/pandas.core.groupby.DataFrameGroupBy.idxmax.html" rel="nofollow">^{<cd1>}</a>是否无用： 样品： ^{pr2}$ 主要区别在于如何处理另一列，如果使用<code>max</code>它将返回每列的最大值-这里是<code>Hospital_employees</code>和{<cd4>}： <pre><code>c_maxes = hospProfiling.groupby(['Hospital_ID','District_ID'],as_index = False).max() print (c_maxes) Hospital_ID District_ID Hospital_employees Name Val 0 A F 41 Annie 7 1 A M 56 Sam 200 2 B F 28 Julie 9 3 B M 70 James 20 c_maxes = hospProfiling.groupby(['Hospital_ID','District_ID'],as_index = False) .agg({'Hospital_employees': max}) print (c_maxes) Hospital_ID District_ID Hospital_employees 0 A F 41 1 A M 56 2 B F 28 3 B M 70 </code></pre> 函数<code>idxmax</code>返回另一列中最大值的索引： <pre><code>print (hospProfiling.groupby(['Hospital_ID', 'District_ID'])['Hospital_employees'].idxmax()) A F 1 M 10 B F 11 M 2 Name: Hospital_employees, dtype: int64 </code></pre> 然后您只需按<a href="http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.loc.html" rel="nofollow">^{<cd7>}</a>选择<code>DataFrame</code>： <pre><code>c_maxes = hospProfiling.loc[hospProfiling.groupby(['Hospital_ID', 'District_ID'])['Hospital_employees'] .idxmax()] print (c_maxes) District_ID Hospital_ID Hospital_employees Name Val 1 F A 41 Annie 7 10 M A 56 Alan 6 11 F B 28 Julie 9 2 M B 70 Fred 14 </code></pre>

如何删除数据集中的重复值：python

1 个回答

相关Python问题