groupby中出现意外分组

project effort type 0 p1 6.000 feature 1 p2 4.500 feature 2 p3 4.375 bug 3 p4 4.000 bug 4 p5 3.875 bug 5 p6 3.500 upgrade 6 p7 3.500 feature 7 p8 3.000 upgrade 8 p9 2.000 upgrade

project effort type 0 p1 6.000 feature 1 p2 4.500 feature 6 p7 3.500 feature 2 p3 4.375 bug 3 p4 4.000 bug 4 p5 3.875 bug 5 p6 3.500 upgrade 7 p8 3.000 upgrade 8 p9 2.000 upgrade

3条回答

网友

1楼 · 编辑于 2024-04-24 16:09:07

在提供的示例数据集中，每个项目都是具有特定类型的单个记录。在这种情况下，我们可以通过nlargest和groupby类型和sum努力获得前3个项目：

df.nlargest(3, 'effort').groupby('type').sum()

输出：

         effort
type           
bug       4.375
feature  10.500

顺便说一句，我来解释一下你的问题

dev.sort_values(['effort'], ascending=False).groupby('type').head(3)

当您在GroupBy对象上使用head时，它会为每个组获取第一个元素（参见文档中的^{}），因此“feature”、“bug”和“upgrade”中的每一个元素都会排在前3位。如果在groupby之前应用head，它将正常工作：

dev.sort_values(['effort'], ascending=False).head(3).groupby('type').sum()

它基本上与我上面的解决方案相同，唯一的区别是我使用了nlargest，而不是在后面排序和应用head（nlargest更简洁）

更新：您可以按类型（升序）和工作量（降序）+groupby和head预先排序：

df.sort_values(['type', 'effort'], ascending=[1,0]).groupby('type').head(3)

输出：

  project  effort     type
2      p3   4.375      bug
3      p4   4.000      bug
4      p5   3.875      bug
0      p1   6.000  feature
1      p2   4.500  feature
6      p7   3.500  feature
5      p6   3.500  upgrade
7      p8   3.000  upgrade
8      p9   2.000  upgrade

显然，在pandas讨论的^{}中有一个公开的问题

网友

2楼 · 编辑于 2024-04-24 16:09:07

更新：

首先sort根据effort。groupby在type中，服用head，然后再次服用sort和type。你知道吗

df.sort_values('effort', ascending=False).groupby(['type']).head(3).sort_values('type')

网友

3楼 · 编辑于 2024-04-24 16:09:07

head(3)至少是每个组的大小，因此打印整个DataFrame。你知道吗

import pandas as pd
import csv
from pandas.compat import StringIO

print(pd.__version__)

csvdata = StringIO("""project,effort,type
p1,6,feature
p2,4.5,feature
p3,4.375,bug
p4,4,bug
p5,3.875,bug
p6,3.5,upgrade
p7,3.5,feature
p8,3,upgrade
p9,2,upgrade""")

df = pd.read_csv(csvdata, sep=",")

print(df)
print(df.sort_values(['effort'], ascending=False).groupby('type').head(1))

产生

0.24.2
  project  effort     type
0      p1   6.000  feature
1      p2   4.500  feature
2      p3   4.375      bug
3      p4   4.000      bug
4      p5   3.875      bug
5      p6   3.500  upgrade
6      p7   3.500  feature
7      p8   3.000  upgrade
8      p9   2.000  upgrade
  project  effort     type
0      p1   6.000  feature
2      p3   4.375      bug
5      p6   3.500  upgrade

但是MCVE代码只显示了Grouper的用法。像mean()这样的函数会更有用。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章