PDFminer仅在手动使PDF可搜索时才起作用

2024-06-16 08:57:59 发布

您现在位置:Python中文网/ 问答频道 /正文

我想使用PDFminer和Jupyter笔记本从PDF文件中提取文本

Here是一个PDF文件的示例,我想从中提取文本。当我使用代码posted here时,输出只包含一页页脚,而文档的其余部分将丢失

但是,如果我首先使用Nitro Pro工具的OCR功能手动使PDF文件可搜索,那么我随后就可以使用上面的Python代码从文件中提取所有文本

我查看了PDFminer文档,查看是否有参数设置不正确,但没有找到有关此问题的任何信息。我想转换许多文件,因此使用Nitro Pro工具手动转换每个文件是不可行的


Tags: 文件工具代码文档文本示例herepdf