如何使用Python重新格式化Pandas中的数据帧?

2024-04-26 03:19:15 发布

您现在位置:Python中文网/ 问答频道 /正文

我对Pandas和Python很陌生,但有扎实的编码背景。我决定拿起这个,因为它可以帮助我在工作中自动完成某些财务报告。。你知道吗

为了给你一个我的问题的基本背景,我采取了一个PDF和使用表格重新格式化成一个CSV文件,这是工作正常,但给我一些格式问题。这些报告包含大约60页的PDF文件,我正在将其导出为CSV,然后尝试使用Pandas操作Python中的数据。你知道吗

问题是:当我重新格式化数据时,我得到一个类似这样的CSV文件-

CSV Exported Data from PDF

这里的问题是,某些表格正在发生变化,我认为这是由于这些表格中的页数和多个标题造成的。你知道吗

我是否可以使用Pandas重新格式化这些数据,并且基本上创建一组规则来重新格式化这些数据?你知道吗

  • 基本上,我想根据类似空格的内容将放错位置的行移回各自的位置。你知道吗
  • 我是否可以删除带有特定字符串的行-删除额外/不必要的标题。你知道吗
  • 我是否可以通过搜索包含“Total”的行并将其放在其他位置来保存底部的“Total”数据?你知道吗

从本质上讲,有没有一种方法可以通过一组命令(不指定行号,因为行号每天都在变化)对数据进行分区,然后对其进行相应的重新定位,以便在必要时对数据进行操作?你知道吗


Tags: 文件csv数据标题pandas编码pdf格式