Tabula-py - 表格标题

0 投票
1 回答
28 浏览
提问于 2025-04-12 20:41

这是我第一次在这里发帖,我试着在StackOverflow上查找,但没能找到答案。

我可以使用tabula.read_pdf()来提取所有的表格。我想知道有没有办法在提取表格的同时,也把表格前面的标题抓取下来?

下面是我想要提取标题和表格的一个例子。

我没有任何示例代码,因为我不知道该怎么做。

点击这里查看图片描述 点击这里查看图片描述

1 个回答

0

Tabula-py 主要是用来从 PDF 文件中提取表格的,它并不直接支持提取表格周围的文字,比如表格上面的标题。如果你想要获取表格上面的标题,通常需要做一些额外的步骤。一个方法是使用其他库,比如 PyMuPDF 或 PDFMiner,先提取整页的文字,然后再通过文字处理的方法,根据标题和表格的位置关系来找到并提取标题。这可能需要一些手动设置或者使用一些经验法则,特别是当你的文档结构不一样的时候。

撰写回答