解析Pandas中的多索引Excel文件

2024-06-07 12:13:11 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个时间序列excel文件,其中有一个三级列多重索引,如果可能的话,我想成功解析它。关于如何在堆栈溢出时对索引(而不是列)执行此操作有一些结果,parse函数的header似乎不包含行列表。在

ExcelFile如下所示:

  • A列是从A4开始的所有时间序列日期
  • B列有顶层1(B1)、中层1(B2)、低位1(B3)数据(B4-B100+)
  • C列有空(C1)空(C2)低电平2(C3)数据(C4-C100+)
  • D列有空的(D1)中间水平2(D2)低水平1(D3)数据(D4-D100+)
  • E列有空(E1)空(E2)低电平2(E3)数据(E4-E100+)
  • 。。。在

所以有两个low_level值很多mid_level值和一些top_level值,但诀窍是顶层和中层的值都是空的,并且假设它们是左边的值。因此,例如,上面的所有列都将top_level1作为顶级多索引值。在

到目前为止,我最好的想法是使用transpose,但是它填充了Unnamed: #的任何地方,似乎不起作用。在Pandas 0.13中,read_csv似乎有一个可以接受列表的header参数,但这似乎与parse无关。在


Tags: 文件数据函数列表parse堆栈top时间
1条回答
网友
1楼 · 发布于 2024-06-07 12:13:11

您可以fillna空值。我没有你的档案,但你可以测试

#Headers as rows for now
df = pd.read_excel(xls_file,0, header=None, index_col=0) 

#fill in Null values in "Headers"
df = df.fillna(method='ffill', axis=1) 

#create multiindex column names
df.columns=pd.MultiIndex.from_arrays(df[:3].values, names=['top','mid','low']) 

#Just name of index
df.index.name='Date' 

#remove 3 rows which are already used as column names
df = df[pd.notnull(df.index)] 

相关问题 更多 >

    热门问题