基于其他列值组合数据帧值

import pandas as pd import numpy as np df = pd.DataFrame([['WY','M',2014,'Seth',5], ['WY','M',2014,'Spencer',5], ['WY','M',2014,'Tyce',5], ['NY','M',2014,'Seth',25], ['MA','M',2014,'Spencer',23]],columns = ['state','sex','year','name','number']) print df

3条回答

网友

1楼 · 编辑于 2024-06-16 13:24:47

df[['sex','year','name','number']].groupby(['sex','year','name']).sum().reset_index()

从左到右简要描述一下它的作用：

只选择我们关心的列。我们可以用df.drop('state',axis=1)替换这个部分
对我们关心的列执行groupby。你知道吗
对其余的列求和（在本例中，只需number）。你知道吗
重置索引，使列['sex','year','name']不再是索引的一部分。你知道吗

网友

2楼 · 编辑于 2024-06-16 13:24:47

按所需列分组，求和number，并展平多索引：

df.groupby(['sex','year','name'])['number'].sum().reset_index()

在您的例子中，state列不能求和，因此您可以缩短为：

df.groupby(['sex','year','name']).sum().reset_index()

网友

3楼 · 编辑于 2024-06-16 13:24:47

可以使用透视表

df.pivot_table(values = 'number',aggfunc = 'sum',columns = ['sex','year','name']).reset_index().rename(columns={0:'number'})

相关问题更多 >

编程相关推荐

热门问题

热门文章

基于其他列值组合数据帧值

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >