解析Pandas中的多索引Excel文件

2024-06-07 12:13:11 发布

您现在位置：Python中文网/ 问答频道 /正文

11418

网友

男 | 程序猿一只，喜欢编程写python代码。

我有一个时间序列excel文件，其中有一个三级列多重索引，如果可能的话，我想成功解析它。关于如何在堆栈溢出时对索引（而不是列）执行此操作有一些结果，parse函数的header似乎不包含行列表。在

ExcelFile如下所示：

A列是从A4开始的所有时间序列日期
B列有顶层1（B1）、中层1（B2）、低位1（B3）数据（B4-B100+）
C列有空（C1）空（C2）低电平2（C3）数据（C4-C100+）
D列有空的（D1）中间水平2（D2）低水平1（D3）数据（D4-D100+）
E列有空（E1）空（E2）低电平2（E3）数据（E4-E100+）
。。。在

所以有两个low_level值很多mid_level值和一些top_level值，但诀窍是顶层和中层的值都是空的，并且假设它们是左边的值。因此，例如，上面的所有列都将top_level1作为顶级多索引值。在

到目前为止，我最好的想法是使用transpose，但是它填充了Unnamed: #的任何地方，似乎不起作用。在Pandas 0.13中，read_csv似乎有一个可以接受列表的header参数，但这似乎与parse无关。在

Tags：文件数据函数列表 parse 堆栈 top 时间

1条回答

网友

1楼 · 发布于 2024-06-07 12:13:11

您可以fillna空值。我没有你的档案，但你可以测试

#Headers as rows for now
df = pd.read_excel(xls_file,0, header=None, index_col=0) 

#fill in Null values in "Headers"
df = df.fillna(method='ffill', axis=1) 

#create multiindex column names
df.columns=pd.MultiIndex.from_arrays(df[:3].values, names=['top','mid','low']) 

#Just name of index
df.index.name='Date' 

#remove 3 rows which are already used as column names
df = df[pd.notnull(df.index)]

解析Pandas中的多索引Excel文件

相关问题更多 >

编程相关推荐

热门问题

热门文章

解析Pandas中的多索引Excel文件

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >