我想自动化手动将数据从PDF提取到excel的过程

2024-06-16 11:31:44 发布

您现在位置:Python中文网/ 问答频道 /正文

我有数百个PDF文件,它们都有完全相同的格式(大部分是表格格式)。我有一个excel工作表,我从表格(PDF)中选择值,并将它们粘贴到excel中的特定位置(也在表格中),以分析数据。我经历过地狱:powershell、itextsharp、acrobat表单、导出数据等,但到目前为止我一直很不走运。不管怎样,我都可以自动完成从PDF中提取数据并将其放入excel的手动过程。同样,所有PDF格式完全相同(只有值不同)

编辑:要添加更多详细信息,这些PDF是纳税申报单。我必须合并每月提交的纳税申报表。因此,表格标题在excel中保持不变,只是每个月的值会发生变化,因为不同月份的回报不同。现在我正在打开单个PDF,复制值并将其粘贴到excel工作表中。我想自动化这个过程


Tags: 文件数据表单pdf粘贴过程格式excel
2条回答

可以使用tabla和pandas从pdf导出多个表

示例代码

作为pd进口熊猫 进口表格

df=tabla.read\u pdf('path to file',pages='all')

对于范围内的i(len(df)): df[i].to_excel('file_'+str(i)+'.xlsx')

Python既有Excel库,也有PDF库。你可以在网上免费找到它们。Python本身也可以免费下载,您可以快速学习

例如,一些PDF库: https://www.datasciencelearner.com/top-5-python-pdf-library-know-data-scientist/

对于Excel,我发现: https://www.educba.com/python-read-excel-file/

玩得开心

相关问题 更多 >