在Pandas中解析多重索引Excel文件

3 投票
1 回答
3958 浏览
提问于 2025-04-18 09:19

我有一个时间序列的Excel文件,里面有一个三层的列多重索引,我想把它解析出来。如果可能的话,我希望能成功做到这一点。在Stack Overflow上有一些关于如何处理索引的结果,但对于列的处理却没有太多信息,而且parse函数的header参数似乎不支持传入一个行的列表。

这个Excel文件大致长这样:

  • A列是所有的时间序列日期,从A4开始
  • B列有顶层1(B1)、中层1(B2)、低层1(B3)的数据(B4到B100+)
  • C列有空值(C1)、空值(C2)、低层2(C3)的数据(C4到C100+)
  • D列有空值(D1)、中层2(D2)、低层1(D3)的数据(D4到D100+)
  • E列有空值(E1)、空值(E2)、低层2(E3)的数据(E4到E100+)
  • ...

所以这里有两个low_level的值,很多mid_level的值,还有一些top_level的值,但关键是顶层和中层的值都是空的,默认是左边的值。因此,比如说上面所有的列都会把顶层1作为顶级多重索引的值。

到目前为止,我最好的想法是使用transpose,但这样会到处填充Unnamed: #,看起来也不太管用。在Pandas 0.13中,read_csv似乎有一个header参数可以接受一个列表,但这在parse中似乎不适用。

1 个回答

7

你可以用 fillna 来填补空值。我没有你的文件,但你可以试试

#Headers as rows for now
df = pd.read_excel(xls_file,0, header=None, index_col=0) 

#fill in Null values in "Headers"
df = df.fillna(method='ffill', axis=1) 

#create multiindex column names
df.columns=pd.MultiIndex.from_arrays(df[:3].values, names=['top','mid','low']) 

#Just name of index
df.index.name='Date' 

#remove 3 rows which are already used as column names
df = df[pd.notnull(df.index)] 

撰写回答