Tabula-py - 表格标题
这是我第一次在这里发帖,我试着在StackOverflow上查找,但没能找到答案。
我可以使用tabula.read_pdf()来提取所有的表格。我想知道有没有办法在提取表格的同时,也把表格前面的标题抓取下来?
下面是我想要提取标题和表格的一个例子。
我没有任何示例代码,因为我不知道该怎么做。
1 个回答
0
Tabula-py 主要是用来从 PDF 文件中提取表格的,它并不直接支持提取表格周围的文字,比如表格上面的标题。如果你想要获取表格上面的标题,通常需要做一些额外的步骤。一个方法是使用其他库,比如 PyMuPDF 或 PDFMiner,先提取整页的文字,然后再通过文字处理的方法,根据标题和表格的位置关系来找到并提取标题。这可能需要一些手动设置或者使用一些经验法则,特别是当你的文档结构不一样的时候。