Python中文
首页
教程
问答
标签
搜索
登录
注册
如何删除数据集中的重复值:python
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>我想通过保留具有最高值的项来删除数据集中的重复项。现在我用的是熊猫:</p> <pre><code>c_maxes = hospProfiling.groupby(['Hospital_ID', 'District_ID'], group_keys=False)\ .apply(lambda x: x.ix[x['Hospital_employees'].idxmax()]) print c_maxes c_maxes.to_csv('data/external/HospitalProfilingMaxes.csv') </code></pre> <p>这样做会导致初始数据集:<code>Hospital_ID,District_ID,Hospital_employees</code>变成{<cd2>}。在</p> <p>正在复制用于分组的列。这里有什么错误?在</p> <p>编辑:</p> <p>在使用groupby()函数时,将在数据开头添加一个额外的列。列没有名称,它只是所有行的序列号。这里的第二个问题就是答案。我想删除这个额外的专栏,因为我不需要它。我试过了:</p> <p><code>hospProfiling.drop(hospProfiling.columns[0], axis=1)</code></p> <p>此代码不会删除列。如何才能将其移除?在</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>为什么不使用groupby<code>max</code>方法?在</p> <pre><code>hopsProfiling.groupby(['Hospital_ID','District_ID'],as_index = False).max() </code></pre> <p>如果您碰巧有三列以上的列,请将max替换为agg:</p> ^{pr2}$
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
我是否正确构建了这个递归神经网络
9 回答
我是否正确理解acquire和realease是如何在python库“线程化”中工作的
10 回答
我是否正确理解Keras中的批次大小?
9 回答
我是否正确理解PyTorch的加法和乘法?
8 回答
我是否正确组织了我的Django应用程序?
5 回答
我是否正确计算执行时间?如果是这样,那么并行处理将花费更长的时间。这看起来很奇怪
7 回答
我是否每次创建新项目时都必须在PyCharm中安装numpy?(安装而不是导入)
6 回答
我是否每次运行jupyter笔记本时都必须重新启动内核?
5 回答
我是否用python安装了socks模块?
1 回答
我是否真的需要知道超过一种语言,如果我想要制作网页应用程序?
10 回答
我是否缺少spaCy柠檬化中的预处理功能?
3 回答
我是否缺少给定状态下操作的检查?
6 回答
我是否能够使用函数“count()”来查找密码中大写字母的数量((Python)
10 回答
我是否能够使用用户输入作为colorama模块中的颜色?
3 回答
我是否能够创建一个能够添加新Django.contrib.auth公司没有登录到管理面板的用户?
9 回答
我是否能够将来自多个不同网站的数据合并到一个csv文件中?
8 回答
我是否能够将目录路径转换为可以输入python hdf5数据表的内容?
9 回答
我是否能够等到一个对象被销毁,直到它创建另一个对象,然后在循环中运行time.sleep()
5 回答
我是否能够通过CBV创建用户实例,而不是首先创建表单?(Django)
2 回答
我是否要使它成为递归函数?
1 回答