我有一个数据集,其中包含家庭密钥、年龄组、收入组和日期列。对于每个家庭,每个家庭去购物的每一天都有一排。我想找出平均每个年龄组在研究期间购物的天数。我试着按年龄组分组并计算唯一日期的数量,但我想得到每个组中每个家庭的唯一日期,而不仅仅是每个组中的唯一日期,然后我想得到平均值和标准差之类的东西。我试过:
df.groupby('age_group', as_index=False).agg({'DAY': 'nunique'})
但这忽略了家庭,我也试着:
df.groupby(['age_group', 'household_key'], as_index=False).agg({'DAY': 'nunique'})
但这让我每户都有一组(每户都是一个年龄组)。那我就不知道怎么按年龄组来获取信息了。我想做一些多层次的小组,但我不知道怎么做。我在python3中使用熊猫
IIUC,首先要对每个
age
和household
进行聚合:然后再用groupby表示平均值,例如
将给出
household_key
中每个age_group
的平均值如果我正确理解你想要达到的目标,你可以尝试以下方法:
结果如下:
相关问题 更多 >
编程相关推荐