解析PDF时忽略表

2024-03-29 10:52:01 发布

您现在位置:Python中文网/ 问答频道 /正文

我想解析pdf并删除所有表、图像。我已经使用PyPDF2和pdfminer来解析pdf,但是它也解析表的内容以及其他内容。我尝试将pdf转换为xml(使用pdfminer)以获得一些结构,这样就可以忽略表。但我没有什么有用的结构。我有不同id的元素,就像这样

 <textbox id="1" bbox="56.760,740.908,82.824,751.816">

我知道,我可以使用这些id属性来忽略这个表,但是我有大量的文档,使用这种方法我必须手动检查哪个id属于这个表,这样我就可以忽略它。我想知道有没有其他方法可以自动完成这项任务?你知道吗

Here is示例pdf和xml文件。你知道吗


Tags: 方法文档图像id元素内容属性pdf
1条回答
网友
1楼 · 发布于 2024-03-29 10:52:01

您可以使用pdfreader提取包含“pdf markdown”的文本,然后使用您喜欢的工具(如正则表达式)对其进行解析以跳过表:

from pdfreader import SimplePDFViewer, PageDoesNotExist

fd = open(you_pdf_file_name, "rb")
viewer = SimplePDFViewer(fd)

pdf_markdown = ""

try:
    while True:
        viewer.render()
        pdf_markdown += viewer.canvas.text_content
        viewer.next()
except PageDoesNotExist:
    pass

text = my_cool_tables_parser(pdf_markdown)

相关问题 更多 >