Pandasgroupby会员

2024-05-08 19:03:02 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个大熊猫数据帧,它存储键、值对、一个主要组和一组次要组。你知道吗

key    |  value  |  primary_group  | secondary_groups
height    10        1                set(["B","C"])
width     9         1                set(["A","C"])
width     9         2                set(["B","A"])
etc.

我想得到每个次要组每个键的平均值。

如果使用主要组:

df.groupby(["key","primary_group"]).mean()

但对于第二组,我感到困惑——最简单的方法似乎是将其标准化,并为每个第二组重复每一行:

key    |  value  |  primary_group  | secondary_group
height    10        1                B
height    10        1                C
width     9         1                A
width     9         1                C
width     9         2                B
width     9         2                A

df.groupby(["key","secondary_group"]).mean()

但这似乎是一种非常浪费的方式——我不确定我的数据最终是否会以这种格式出现在内存中。你知道吗


Tags: 数据keydfvaluegroupetcmeanwidth