在pandas中,如何在透视两列及一个值列时或之后可靠地设置多级列的索引顺序
在对两个列进行透视操作,并且有一个单独的值列后,我想要一个特定顺序的多重索引列的DataFrame,像这样(请忽略在这个简化示例中multi-2和multi-3标签的无意义):
multi-1 one two
multi-2 multi-2 multi-2
multi-3 SomeText SomeText
mIndex
bar -1.788089 -0.631030
baz -1.836282 0.762363
foo -1.104848 -0.444981
qux -0.484606 -0.507772
我从一个标记为multi-2的多重索引值系列开始,创建一个三列的DataFrame:第一列是系列的索引(multi-1);第二列是值(multi-2);还有第三列(multi-3),我其实只是想用它作为列标签。接着,我想围绕multi-1和multi-3进行透视,值是multi-2。问题是:多重索引列的标签必须始终按特定顺序排列:multi-1,multi-2,然后是multi-3。
import pandas as pd
import numpy as np
arrays = [["bar", "bar", "baz", "baz", "foo", "foo", "qux", "qux"],
["one", "two", "one", "two", "one", "two", "one", "two"]]
tuples = list(zip(*arrays))
index = pd.MultiIndex.from_tuples(tuples, names=["mIndex", "multi-1"])
s = pd.Series(np.random.randn(8), index=index)
s.rename("multi-2", inplace=True)
df = pd.DataFrame(s.reset_index(level=["multi-1"]))
df["multi-3"] = "SomeText"
df = df.pivot(columns={"multi-1", "multi-3"}, values=["multi-2"])
df = df.swaplevel(0,1, axis=1) # option 1: works only sometimes
# ???? how do I name the values level ????
df = df.reorder_levels("multi-1", "multi-2", "multi-3") # option 2: set fixed order
在透视时将multi-2包含在列中会创建另一个层级。
使用.swaplevel方法并不总是能返回相同的顺序,因为(我猜)在透视后,原始索引的顺序并不总是相同。这可能是对的吗?
为了使用reorder_levels,我需要以某种方式为multi-2值层设置一个索引标签(目前是“None”,与“Multi-1”和“Multi-3”并列)。
有没有办法在透视时设置标签?或者在透视后以不使用索引的方式设置标签(因为索引似乎会以某种方式改变)?或者有没有其他方法可以得到相同的结果?
1 个回答
5
在使用 pivot
之后,得到的值没有索引名称,你需要自己给它们命名:
(df.pivot(columns={'multi-1', 'multi-3'}, values=['multi-2'])
.rename_axis(columns={None: 'multi-2'})
.reorder_levels(['multi-1', 'multi-2', 'multi-3'], axis=1)
)
输出结果:
multi-1 one two
multi-2 multi-2 multi-2
multi-3 SomeText SomeText
mIndex
bar 0.938079 -1.051440
baz 0.263281 1.388145
foo -0.965295 0.611163
qux -1.120318 -0.529974
另外,swaplevel
的效果不太稳定,因为你在 pivot
中使用了一个 set
(这是一种无序的集合),建议你用一个list
来代替:
(df.pivot(columns=['multi-1', 'multi-3'], values=['multi-2'])
.swaplevel(0, 1, axis=1)
)
注意:如果需要的话,你还可以加上 .rename_axis(columns={None: 'multi-2'})
来重命名。
输出结果:
multi-1 one two
multi-2 multi-2
multi-3 SomeText SomeText
mIndex
bar 0.542184 -0.199041
baz 1.253028 -1.006294
foo 0.252699 -1.728199
qux 0.572631 -0.694103
# with more columns
# columns=['multi-1', 'multi-3', 'multi-4', 'multi-5']
multi-1 one two
multi-2 multi-2
multi-3 SomeText SomeText
multi-4 SomeText SomeText
multi-5 SomeText SomeText
mIndex
bar 0.071546 0.264463
baz 0.516355 1.594471
foo -0.194536 -1.344563
qux -0.197232 -0.845405