如何快速使用Pandas读取多个包含多个工作表的Excel文件？

import pandas as pd import glob import numpy as np invoicelist = glob.glob('*.xlsx') invoicelist = pd.Series(invoicelist) invoicelist1 = invoicelist[~invoicelist.str.contains('Analysis|Errors|M&T|MGMT|MT', case = False)] invoice = pd.DataFrame() for f in invoicelist1: x = pd.ExcelFile(f) sheets = x.sheet_names sheets1 = pd.Series(sheets) sheets1 = sheets1[~sheets1.str.contains('Summary|sheet', case = False)] sheets2 = sheets1.tolist() for sheet in sheets2: newdf = x.parse(sheet) newdf['Sheet'] = sheet newdf['File'] = f invoice = invoice.append(newdf, ignore_index = True)

1条回答

网友

1楼 · 发布于 2024-05-12 12:58:28

我建议直接使用pd.concat和pd.read_excel，如下所示：

invoicelist = glob.glob('*.xlsx')
invoicelist = pd.Series(invoicelist)
invoicelist1 = invoicelist[~invoicelist.str.contains('Analysis|Errors|M&T|MGMT|MT', case = False)]
sheetnames = ['sheet_1', 'sheet_2', 'sheet_3', 'sheet_4']

df = pd.concat([pd.read_excel(file_path, sheet_name=sheetname)
               for file_path in invoicelist1
               for sheetname in sheetnames])

需要注意的是，您应该在上手之前知道表名的索引或名称。如果是这样，我建议采用暴力方法：

df_list = []
for file_path in invoicelist1:
    i=0
    while True:
        try:
            df_list.append(pd.read_excel(file_path, sheet_name=i))
            i+=1
        except IndexError:
            break

df = pd.concat(df_list)

但同样，暴力是有效的，但表现不好，这否定了你的最终目标。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章