我想解析pdf并删除所有表、图像。我已经使用PyPDF2和pdfminer来解析pdf,但是它也解析表的内容以及其他内容。我尝试将pdf转换为xml(使用pdfminer)以获得一些结构,这样就可以忽略表。但我没有什么有用的结构。我有不同id的元素,就像这样
<textbox id="1" bbox="56.760,740.908,82.824,751.816">
我知道,我可以使用这些id属性来忽略这个表,但是我有大量的文档,使用这种方法我必须手动检查哪个id属于这个表,这样我就可以忽略它。我想知道有没有其他方法可以自动完成这项任务?你知道吗
Here is示例pdf和xml文件。你知道吗
您可以使用pdfreader提取包含“pdf markdown”的文本,然后使用您喜欢的工具(如正则表达式)对其进行解析以跳过表:
相关问题 更多 >
编程相关推荐