对多索引列的多列求和

3 投票
1 回答
2533 浏览
提问于 2025-04-18 18:37

我有一个数据表,它是从一个透视表生成的,样子大概是这样的:

import pandas as pd
d = {('company1', 'False Negative'): {'April- 2012': 112.0, 'April- 2013': 370.0, 'April- 2014': 499.0, 'August- 2012': 431.0, 'August- 2013': 496.0, 'August- 2014': 221.0},
('company1', 'False Positive'): {'April- 2012': 0.0, 'April- 2013': 544.0, 'April- 2014': 50.0, 'August- 2012': 0.0, 'August- 2013': 0.0, 'August- 2014': 426.0},
('company1', 'True Positive'): {'April- 2012': 0.0, 'April- 2013': 140.0, 'April- 2014': 24.0, 'August- 2012': 0.0, 'August- 2013': 0.0,'August- 2014': 77.0},
('company2', 'False Negative'): {'April- 2012': 112.0, 'April- 2013': 370.0, 'April- 2014': 499.0, 'August- 2012': 431.0, 'August- 2013': 496.0, 'August- 2014': 221.0},
('company2', 'False Positive'): {'April- 2012': 0.0, 'April- 2013': 544.0, 'April- 2014': 50.0, 'August- 2012': 0.0, 'August- 2013': 0.0, 'August- 2014': 426.0},
('company2', 'True Positive'): {'April- 2012': 0.0, 'April- 2013': 140.0, 'April- 2014': 24.0, 'August- 2012': 0.0, 'August- 2013': 0.0,'August- 2014': 77.0},}

df = pd.DataFrame(d)

                company1    company2
                FN  FP  TP  FN  FP  TP
April- 2012     112 0   0   112 0   0
April- 2013     370 544 140 370 544 140
April- 2014     499 50  24  499 50  24
August- 2012    431 0   0   431 0   0
August- 2013    496 0   0   496 0   0
August- 2014    221 426 77  221 426 77

我想要对这个多层索引的列的上层进行循环,给每个公司创建一个总和列:

                company1           company2
                FN  FP  TP  SUM    FN   FP  TP   SUM
April- 2012     112 0   0   112    112  0   0    112
April- 2013     370 544 140 1054   370  544 140  1054
April- 2014     499 50  24  573    499  50  24   573
August- 2012    431 0   0   431    431  0   0    431
August- 2013    496 0   0   496    496  0   0    496
August- 2014    221 426 77  724    221  426 77   724

我事先不知道公司名称,所以需要进行循环处理。

1 个回答

9

你可以通过指定 level 来计算这个总和(你想要在第一个层级上求和,也就是 在第0层求和,这样就会把第二层合并起来):

In [29]: df.sum(axis=1, level=0)
Out[29]:
              company1  company2
April- 2012        112       112
April- 2013       1054      1054
April- 2014        573       573
August- 2012       431       431
August- 2013       496       496
August- 2014       724       724

如果你想把这些结果加到原来的数据表里,就像你上面举的例子那样,你可以在列中添加一个层级,然后进行合并:

sums = df.sum(level=0, axis=1)
sums.columns = pd.MultiIndex.from_product([sums.columns, ['SUM']])
df = pd.concat([df, sums], axis=1)

撰写回答