我有一个大熊猫数据帧,它存储键、值对、一个主要组和一组次要组。你知道吗
key | value | primary_group | secondary_groups
height 10 1 set(["B","C"])
width 9 1 set(["A","C"])
width 9 2 set(["B","A"])
etc.
我想得到每个次要组每个键的平均值。
如果使用主要组:
df.groupby(["key","primary_group"]).mean()
但对于第二组,我感到困惑——最简单的方法似乎是将其标准化,并为每个第二组重复每一行:
key | value | primary_group | secondary_group
height 10 1 B
height 10 1 C
width 9 1 A
width 9 1 C
width 9 2 B
width 9 2 A
df.groupby(["key","secondary_group"]).mean()
但这似乎是一种非常浪费的方式——我不确定我的数据最终是否会以这种格式出现在内存中。你知道吗
目前没有回答
相关问题 更多 >
编程相关推荐