在Pandas中解析多重索引Excel文件

3 投票

1 回答

3958 浏览

提问于 2025-04-18 09:19

我有一个时间序列的Excel文件，里面有一个三层的列多重索引，我想把它解析出来。如果可能的话，我希望能成功做到这一点。在Stack Overflow上有一些关于如何处理索引的结果，但对于列的处理却没有太多信息，而且parse函数的header参数似乎不支持传入一个行的列表。

这个Excel文件大致长这样：

A列是所有的时间序列日期，从A4开始
B列有顶层1（B1）、中层1（B2）、低层1（B3）的数据（B4到B100+）
C列有空值（C1）、空值（C2）、低层2（C3）的数据（C4到C100+）
D列有空值（D1）、中层2（D2）、低层1（D3）的数据（D4到D100+）
E列有空值（E1）、空值（E2）、低层2（E3）的数据（E4到E100+）
...

所以这里有两个low_level的值，很多mid_level的值，还有一些top_level的值，但关键是顶层和中层的值都是空的，默认是左边的值。因此，比如说上面所有的列都会把顶层1作为顶级多重索引的值。

到目前为止，我最好的想法是使用transpose，但这样会到处填充Unnamed: #，看起来也不太管用。在Pandas 0.13中，read_csv似乎有一个header参数可以接受一个列表，但这在parse中似乎不适用。

数据处理数据清洗时间序列 pandas库多重索引数据框架空值处理 excel解析

1 个回答

你可以用 fillna 来填补空值。我没有你的文件，但你可以试试

#Headers as rows for now
df = pd.read_excel(xls_file,0, header=None, index_col=0) 

#fill in Null values in "Headers"
df = df.fillna(method='ffill', axis=1) 

#create multiindex column names
df.columns=pd.MultiIndex.from_arrays(df[:3].values, names=['top','mid','low']) 

#Just name of index
df.index.name='Date' 

#remove 3 rows which are already used as column names
df = df[pd.notnull(df.index)]

回答于 2025-04-18 由 Python大师

分享举报

在Pandas中解析多重索引Excel文件

1 个回答

撰写回答