Python中文
首页
教程
问答
标签
搜索
登录
注册
如何删除数据集中的重复值:python
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>我想通过保留具有最高值的项来删除数据集中的重复项。现在我用的是熊猫:</p> <pre><code>c_maxes = hospProfiling.groupby(['Hospital_ID', 'District_ID'], group_keys=False)\ .apply(lambda x: x.ix[x['Hospital_employees'].idxmax()]) print c_maxes c_maxes.to_csv('data/external/HospitalProfilingMaxes.csv') </code></pre> <p>这样做会导致初始数据集:<code>Hospital_ID,District_ID,Hospital_employees</code>变成{<cd2>}。在</p> <p>正在复制用于分组的列。这里有什么错误?在</p> <p>编辑:</p> <p>在使用groupby()函数时,将在数据开头添加一个额外的列。列没有名称,它只是所有行的序列号。这里的第二个问题就是答案。我想删除这个额外的专栏,因为我不需要它。我试过了:</p> <p><code>hospProfiling.drop(hospProfiling.columns[0], axis=1)</code></p> <p>此代码不会删除列。如何才能将其移除?在</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>为什么不使用groupby<code>max</code>方法?在</p> <pre><code>hopsProfiling.groupby(['Hospital_ID','District_ID'],as_index = False).max() </code></pre> <p>如果您碰巧有三列以上的列,请将max替换为agg:</p> ^{pr2}$
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
jupyter运行一个旧的pytorch版本
8 回答
Jupyter运行不同版本的卸载库?
5 回答
Jupyter运行指定的键盘快捷键
3 回答
Jupyter通过.local文件“逃逸”virtualenv。我该如何缓解这种情况?
3 回答
Jupyter重新加载自定义样式
6 回答
Jupyter错误:“没有名为Jupyter_core.paths的模块”
4 回答
jupyter错误:无法在随机林中将决策树视为png
3 回答
Jupyter错误'内核似乎已经死亡,它将自动重新启动'为一个给定的代码块
10 回答
Jupyter错误地用阿拉伯语和字母数字元素显示Python列表
3 回答
Jupyter隐藏数据帧索引,但保留原始样式
1 回答
Jupyter集线器:启动器中出现致命错误。。。系统找不到指定的文件
6 回答
Jupyther中相同值的相同哈希,但导出到Bigquery时不相同
8 回答
Jupy上Python的读/写访问问题
9 回答
jupy上没有模块cv
1 回答
Jupy上的排序错误
5 回答
Jupy中bqplot图形的紧凑布局
5 回答
Jupy中matplotlib plot的连续更新
5 回答
Jupy中Numpy函数的文档
8 回答
Jupy中Pandas的自动完成问题
9 回答
jupy中Qt后端的Matplotlib动画
10 回答