对多索引列的多列求和
我有一个数据表,它是从一个透视表生成的,样子大概是这样的:
import pandas as pd
d = {('company1', 'False Negative'): {'April- 2012': 112.0, 'April- 2013': 370.0, 'April- 2014': 499.0, 'August- 2012': 431.0, 'August- 2013': 496.0, 'August- 2014': 221.0},
('company1', 'False Positive'): {'April- 2012': 0.0, 'April- 2013': 544.0, 'April- 2014': 50.0, 'August- 2012': 0.0, 'August- 2013': 0.0, 'August- 2014': 426.0},
('company1', 'True Positive'): {'April- 2012': 0.0, 'April- 2013': 140.0, 'April- 2014': 24.0, 'August- 2012': 0.0, 'August- 2013': 0.0,'August- 2014': 77.0},
('company2', 'False Negative'): {'April- 2012': 112.0, 'April- 2013': 370.0, 'April- 2014': 499.0, 'August- 2012': 431.0, 'August- 2013': 496.0, 'August- 2014': 221.0},
('company2', 'False Positive'): {'April- 2012': 0.0, 'April- 2013': 544.0, 'April- 2014': 50.0, 'August- 2012': 0.0, 'August- 2013': 0.0, 'August- 2014': 426.0},
('company2', 'True Positive'): {'April- 2012': 0.0, 'April- 2013': 140.0, 'April- 2014': 24.0, 'August- 2012': 0.0, 'August- 2013': 0.0,'August- 2014': 77.0},}
df = pd.DataFrame(d)
company1 company2
FN FP TP FN FP TP
April- 2012 112 0 0 112 0 0
April- 2013 370 544 140 370 544 140
April- 2014 499 50 24 499 50 24
August- 2012 431 0 0 431 0 0
August- 2013 496 0 0 496 0 0
August- 2014 221 426 77 221 426 77
我想要对这个多层索引的列的上层进行循环,给每个公司创建一个总和列:
company1 company2
FN FP TP SUM FN FP TP SUM
April- 2012 112 0 0 112 112 0 0 112
April- 2013 370 544 140 1054 370 544 140 1054
April- 2014 499 50 24 573 499 50 24 573
August- 2012 431 0 0 431 431 0 0 431
August- 2013 496 0 0 496 496 0 0 496
August- 2014 221 426 77 724 221 426 77 724
我事先不知道公司名称,所以需要进行循环处理。
1 个回答
9
你可以通过指定 level
来计算这个总和(你想要在第一个层级上求和,也就是 在第0层求和,这样就会把第二层合并起来):
In [29]: df.sum(axis=1, level=0)
Out[29]:
company1 company2
April- 2012 112 112
April- 2013 1054 1054
April- 2014 573 573
August- 2012 431 431
August- 2013 496 496
August- 2014 724 724
如果你想把这些结果加到原来的数据表里,就像你上面举的例子那样,你可以在列中添加一个层级,然后进行合并:
sums = df.sum(level=0, axis=1)
sums.columns = pd.MultiIndex.from_product([sums.columns, ['SUM']])
df = pd.concat([df, sums], axis=1)