groupby应用所有其他键的操作

In [52]: d = pd.DataFrame([[1,10], [2,4],[1, 9], [2,3]], columns=['Age', 'ReadingAbility']) In [53]: In [53]: d Out[53]: Age ReadingAbility 0 1 10 1 2 4 2 1 9 3 2 3 In [54]: d.groupby('Age').apply(lambda x: x['ReadingAbility'].mean()) Out[54]: Age 1 9.5 2 3.5 dtype: float64

3条回答

网友

1楼 · 编辑于 2024-06-17 13:05:17

d.groupby("Age")['ReadingAbility'].mean()

得到每组的平均值。您可以通过添加一个查询来过滤，比如Age = 1

d.groupby("Age")['ReadingAbility'].mean().reset_index().query("Age != 1")

或者

d.groupby("Age")['ReadingAbility'].mean().select(lambda x: x != 1, axis=0)

或者，正如Merkle Daamgard所指出的，首先过滤掉不需要的值，然后执行groupby和mean。你知道吗

d.query("Age != 1").groupby("Age")['ReadingAbility'].mean()
d.loc[d.Age != 1].groupby("Age")['ReadingAbility'].mean()
d.where(d.Age != 1).groupby("Age")['ReadingAbility'].mean()

有关详细信息，请参见^{}。你知道吗

网友

2楼 · 编辑于 2024-06-17 13:05:17

您需要：

a = (d.groupby('Age')
      .apply(lambda x: d.loc[d['Age']!=x['Age'].iat[0], 'ReadingAbility'].mean()))

print (a)
Age
1    3.5
2    9.5
dtype: float64

另一个非常快速的解决方案是为每个组聚合sum和size，然后用两列的^{}和减去。最后划分：

np.random.seed(45)
d = pd.DataFrame(np.random.randint(10, size=(10, 2)), columns=['Age', 'ReadingAbility']) 
print (d)
   Age  ReadingAbility
0    3               0
1    5               3
2    4               9
3    8               1
4    5               9
5    6               8
6    7               8
7    5               2
8    8               1
9    6               4

a = (d.groupby('Age')
      .apply(lambda x: d.loc[d['Age']!=x['Age'].iat[0], 'ReadingAbility'].mean()))

print (a)
Age
3    5.000000
4    4.000000
5    4.428571
6    4.125000
7    4.111111
8    5.375000

c = d.groupby('Age')['ReadingAbility'].agg(['size','sum'])
print (c)
     size  sum
Age           
3       1    0
4       1    9
5       3   14
6       2   12
7       1    8
8       2    2

e = c.rsub(c.sum())
e = e['sum'] / e['size']
print (e)
Age
3    5.000000
4    4.000000
5    4.428571
6    4.125000
7    4.111111
8    5.375000
dtype: float64

时间安排：

np.random.seed(45)
N = 100000
d = pd.DataFrame(np.random.randint(1000, size=(N, 2)), columns=['Age', 'ReadingAbility']) 
#print (d)


In [30]: %timeit (d.groupby('Age').apply(lambda x: d.loc[d['Age']!=x['Age'].iat[0], 'ReadingAbility'].mean()))
1 loop, best of 3: 1.27 s per loop


In [31]: %%timeit
    ...: c = d.groupby('Age')['ReadingAbility'].agg(['size','sum'])
    ...: #print (c)
    ...: e = c.sub(c.sum())
    ...: e = e['sum'] / e['size']
    ...: 
100 loops, best of 3: 6.28 ms per loop

网友

3楼 · 编辑于 2024-06-17 13:05:17

我想你可以接受

df = pd.DataFrame([[1,10], [2,4],[1, 9], [2,3]], columns=['Age', 'ReadingAbility'])
res = df.loc[df['Age'] != 1].groupby('Age').apply(lambda x: x['ReadingAbility'].mean())
print res

Age : 2 3.5

相关问题更多 >

编程相关推荐

热门问题

热门文章