在pandas中,如何在透视两列及一个值列时或之后可靠地设置多级列的索引顺序

2 投票
1 回答
40 浏览
提问于 2025-04-14 16:07

在对两个列进行透视操作,并且有一个单独的值列后,我想要一个特定顺序的多重索引列的DataFrame,像这样(请忽略在这个简化示例中multi-2和multi-3标签的无意义):

multi-1       one       two
multi-2   multi-2   multi-2
multi-3  SomeText  SomeText
mIndex                     
bar     -1.788089 -0.631030
baz     -1.836282  0.762363
foo     -1.104848 -0.444981
qux     -0.484606 -0.507772

我从一个标记为multi-2的多重索引值系列开始,创建一个三列的DataFrame:第一列是系列的索引(multi-1);第二列是值(multi-2);还有第三列(multi-3),我其实只是想用它作为列标签。接着,我想围绕multi-1和multi-3进行透视,值是multi-2。问题是:多重索引列的标签必须始终按特定顺序排列:multi-1,multi-2,然后是multi-3。

import pandas as pd
import numpy as np

arrays = [["bar", "bar", "baz", "baz", "foo", "foo", "qux", "qux"],
          ["one", "two", "one", "two", "one", "two", "one", "two"]]

tuples = list(zip(*arrays))
index = pd.MultiIndex.from_tuples(tuples, names=["mIndex", "multi-1"])

s = pd.Series(np.random.randn(8), index=index)
s.rename("multi-2", inplace=True)

df = pd.DataFrame(s.reset_index(level=["multi-1"]))
df["multi-3"] = "SomeText"

df = df.pivot(columns={"multi-1", "multi-3"}, values=["multi-2"])
df = df.swaplevel(0,1, axis=1)      # option 1: works only sometimes
# ???? how do I name the values level ????
df = df.reorder_levels("multi-1", "multi-2", "multi-3")  # option 2: set fixed order

在透视时将multi-2包含在列中会创建另一个层级。

使用.swaplevel方法并不总是能返回相同的顺序,因为(我猜)在透视后,原始索引的顺序并不总是相同。这可能是对的吗?

为了使用reorder_levels,我需要以某种方式为multi-2值层设置一个索引标签(目前是“None”,与“Multi-1”和“Multi-3”并列)。

有没有办法在透视时设置标签?或者在透视后以不使用索引的方式设置标签(因为索引似乎会以某种方式改变)?或者有没有其他方法可以得到相同的结果?

1 个回答

5

在使用 pivot 之后,得到的值没有索引名称,你需要自己给它们命名:

(df.pivot(columns={'multi-1', 'multi-3'}, values=['multi-2'])
   .rename_axis(columns={None: 'multi-2'})
   .reorder_levels(['multi-1', 'multi-2', 'multi-3'], axis=1) 
)

输出结果:

multi-1       one       two
multi-2   multi-2   multi-2
multi-3  SomeText  SomeText
mIndex                     
bar      0.938079 -1.051440
baz      0.263281  1.388145
foo     -0.965295  0.611163
qux     -1.120318 -0.529974

另外,swaplevel 的效果不太稳定,因为你在 pivot 中使用了一个 set(这是一种无序的集合),建议你用一个list 来代替:

(df.pivot(columns=['multi-1', 'multi-3'], values=['multi-2'])
   .swaplevel(0, 1, axis=1)
)

注意:如果需要的话,你还可以加上 .rename_axis(columns={None: 'multi-2'}) 来重命名。

输出结果:

multi-1       one       two
          multi-2   multi-2
multi-3  SomeText  SomeText
mIndex                     
bar      0.542184 -0.199041
baz      1.253028 -1.006294
foo      0.252699 -1.728199
qux      0.572631 -0.694103

# with more columns
# columns=['multi-1', 'multi-3', 'multi-4', 'multi-5']

multi-1       one       two
          multi-2   multi-2
multi-3  SomeText  SomeText
multi-4  SomeText  SomeText
multi-5  SomeText  SomeText
mIndex                     
bar      0.071546  0.264463
baz      0.516355  1.594471
foo     -0.194536 -1.344563
qux     -0.197232 -0.845405

撰写回答