下面是我的数据帧的一个小样本。
In [10]: df
Out[10]:
TXN_KEY Send_Agent Pay_Agent Send_Amount Pay_Amount
0 13272184 AWD120279 AEU002152 85.99 85.04
1 13272947 ARA030122 AEV000034 402.01 400.00
2 13273453 API185805 API190139 22.98 22.98
3 13273870 ANO080012 API352676 490.00 475.68
4 13274676 AUK359401 AED002782 616.16 600.87
5 13274871 ACL000105 ACB020203 193.78 185.21
6 13275194 ADA374245 ANP023424 100.00 98.50
grouped = df.groupby('Send_Agent')
一个计算发送次数的函数与下一个相同,效果很好。
def repeat_count(s):
return (s.shift() == s).sum()
In [35]: result = grouped.agg({'Send_Amount':[repeat_count]})
In [36]: result
Out[36]:
Send_Amount
repeat_count
Send_Agent
A03010016 0
A03020026 0
A10000075 0
A10000316 0
A10000932 0
A10060013 0
A10080022 0
A11120030 0
但是,当我试图计算所有Send_代理的计数时,其中Send_数量在900到1000之间,我得到一个错误:
In [27]: def banded_txns(s):
return(s >=900.00 & s < 1000.00).count()
In [28]: result = grouped.agg({'Send_Amount':banded_txns})
TypeError: cannot compare a dtyped [float64] array with a scalar of type [bool]
我不明白为什么这是一种比较而不是另一种比较。提前谢谢。
目前没有回答
相关问题 更多 >
编程相关推荐