我有一个带有类别/代码的数据集,例如男性/女性、服务状态、服务代码,我有一列付费索赔。你知道吗
我正在寻找一种方法,使用Python创建一个表/透视图,以生成输出,其中我只有按服务代码列出的平均付费索赔的前10个最高列(即,平均付费索赔最高的前10个代码是什么)。我还想附加中值,stdev,counts,这样输出看起来像
表格:
gender, code, state, paid claim
F, 1234, TX, $300
F, 2345, NJ, $120
F, 3456, NJ, $30
M, 1234, MN, $250
M, 4567, CA, $50
F, 1234, MA, $70
F, 8901, CA, $150
F, 23457, NY, $160
F, 4567, SD, $125
我试图生成的输出(按代码列出的前10个已付款索赔):
code, average claim, median claim, count claim
1234, 206, xxx, 3
所以,我做了这样的事情:
service_code_average=df.groupby('service_code', as_index=False)['paid claim'].mean().sort_values(by='paid claim')
我没能限制到前10名,我正在努力添加媒体和计数。你知道吗
这里您可以利用^{} 函数,在这里您可以一次性指定多个聚合函数。您可以执行以下操作:
相关问题 更多 >
编程相关推荐