Tabula-py - 表格标题

0 投票

1 回答

28 浏览

数据工程师

提问于 2025-04-12 20:41

这是我第一次在这里发帖，我试着在StackOverflow上查找，但没能找到答案。

我可以使用tabula.read_pdf()来提取所有的表格。我想知道有没有办法在提取表格的同时，也把表格前面的标题抓取下来？

下面是我想要提取标题和表格的一个例子。

我没有任何示例代码，因为我不知道该怎么做。

点击这里查看图片描述点击这里查看图片描述

data extraction document parsing information retrieval data analysis table extraction pdf processing tabula title extraction

1 个回答

Tabula-py 主要是用来从 PDF 文件中提取表格的，它并不直接支持提取表格周围的文字，比如表格上面的标题。如果你想要获取表格上面的标题，通常需要做一些额外的步骤。一个方法是使用其他库，比如 PyMuPDF 或 PDFMiner，先提取整页的文字，然后再通过文字处理的方法，根据标题和表格的位置关系来找到并提取标题。这可能需要一些手动设置或者使用一些经验法则，特别是当你的文档结构不一样的时候。

回答于 2025-04-12 由 Python大师

分享举报

Tabula-py - 表格标题

1 个回答

撰写回答