如何在python anaconda中组合xlsx文件?

2024-05-16 01:16:59 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在学习做数据分析,但是他们给我的数据库分为13个部分,每个部分有13个文件。我检查了每个部分,发现前10列在每个文件上重复,作为连接文件的标题,特别是“id”和“date”两列。作为上下文,这个数据库是200万个假病历记录,所以我想把所有具有相同id和日期的行与所有其他列连接起来,但是我想保留没有任何其他匹配行的行。你知道吗

files = glob.glob('*.xlsx')
df_list = []
for the file in files:
  df = pd.read_excel(file)
  df['file'] = file
  df_list.append(df)

到目前为止,我已经能够连接所有的文件,但我不能与列验证连接。谢谢你的时间。你知道吗


Tags: 文件theid数据库标题dffordate