如何在Python中聚合某些列而保留其他列

data = [ ["25-5-19", "cat1", "cat3", 10, 1], ["25-5-19", "cat1", "cat3", 20, 1], ["25-5-19", "cat1", "cat3", 30, 1], ["26-5-19", "cat2", "cat4", 50, 2], ["26-5-19", "cat2", "cat4", 100, 2], ["26-5-19", "cat2", "cat4", 10, 2], ["27-5-19", "cat1", "cat5", 40, None], ["27-5-19", "cat1", "cat5", 60, None] ]

3条回答

网友

1楼 · 编辑于 2024-04-26 07:31:39

看来你需要

df['New']=df.groupby(['colA','colB'])['colC'].transform('sum')

网友

2楼 · 编辑于 2024-04-26 07:31:39

df = pd.DataFrame(data, columns = ['colA', 'colB', 'colC', 'colD', 'colE']) 

df['colE'] = df['colE'].fillna(-1)# I replaced all NaN with -1 to avoid `function not reduce error`

df.groupby(['colA','colB']).aggregate({'colD':sum,'colC':np.unique,'colE':np.unique})

网友

3楼 · 编辑于 2024-04-26 07:31:39

I want to groupby() colA,colB and sum() colD, while taking the distinct values of colC and colE

所以我相信你可以在聚合器中使用set，完成后使用reset_index()：

# dataframe data from example (+ extra `cat1` in ColC)
data = [
    ["25-5-19", "cat1", "cat1", 10, 1],
    ["25-5-19", "cat1", "cat3", 20, 1],
    ["25-5-19", "cat1", "cat3", 30, None],
    ["26-5-19", "cat2", "cat4", 50, 2],
    ["26-5-19", "cat2", "cat4", 100, 2],
    ["26-5-19", "cat2", "cat4", 10, 2]
] 

df = pd.DataFrame(data, columns = ['colA', 'colB', 'colC', 'colD', 'colE']) 

# aggregator sums over `colD` and gets distinct values of `colC` and `colE`
df.groupby(['colA', 'colB']).aggregate({'colD': sum, 'colC': set, 'colE': set}).reset_index()


| - | colA  |colB   | colE         | colD   | colC          |
| -|   -|   -|       |    |       -|
|0  |25-5-19|  cat1 |   {nan, 1.0} |  60    |  {cat3, cat1} |
|1  |26-5-19|  cat2 |   {2.0}      |  160   |   {cat4}      |

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何在Python中聚合某些列而保留其他列

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >