我如何通过计数过滤数据，并同时对组进行平均？

x = [ [ 1000 , 4756 , 6 , 2017 , 0.36 ], [1000 , 2357 , 6 , 2017 , 0.42 ], [ 1000 , 2400 , 6 , 2017 , 0.76 ], [ 1000 , 2400 , 6 , 2017 , 1.11 ], [ 1000 , 2400 , 6 , 2017 , 0.27 ], [ 1000 , 2400 , 6 , 2017 , 1.57 ], [ 2399 , 9531 , 6 , 2017 , 0.57 ], [ 3999 , 8532 , 6 , 2017 , 0.27 ], [ 3999 , 2138 , 6 , 2017 , 1.76] , [ 1039 , 4215 , 6 , 2017 , 0.26] ] df = pd.DataFrame(x, columns=['t_user','c_user','mo','yr','tval']) | | t_user | c_user | mo | yr | tval | |----|--------|--------|----|------|------| | 0 | 1000 | 4756 | 6 | 2017 | 0.36 | | 1 | 1000 | 2357 | 6 | 2017 | 0.42 | | 2 | 1000 | 2400 | 6 | 2017 | 0.76 | | 3 | 1000 | 2400 | 6 | 2017 | 1.11 | | 4 | 1000 | 2400 | 6 | 2017 | 0.27 | | 6 | 1000 | 2400 | 6 | 2017 | 1.57 | | 7 | 2399 | 9531 | 6 | 2017 | 0.57 | | 8 | 3999 | 8532 | 6 | 2017 | 0.27 | | 9 | 3999 | 2138 | 6 | 2017 | 1.76 | | 10 | 1039 | 4215 | 6 | 2017 | 0.26 |

1条回答

网友
1楼 · 发布于 2024-04-26 14:00:51

您应该能够使用groupby+transform来计算、过滤和应用平均值
transform将保留原始结构（并且只是重复值），因此您可以使用它在相同的切片函数上进行过滤
例如：
gpd = df[ df.groupby(['t_user', 'c_user', 'mo', 'yr']).transform('count').values >= 4 #filter by greater than 3 ].groupby(['t_user', 'c_user', 'mo', 'yr']).agg({'tval': 'mean'}).reset_index() ## aggregate result gpd Out[1]: t_user c_user mo yr tval 0 1000 2400 6 2017 0.9275

相关问题更多 >

编程相关推荐

热门问题

热门文章