我想使用PDFminer和Jupyter笔记本从PDF文件中提取文本
Here是一个PDF文件的示例,我想从中提取文本。当我使用代码posted here时,输出只包含一页页脚,而文档的其余部分将丢失
但是,如果我首先使用Nitro Pro工具的OCR功能手动使PDF文件可搜索,那么我随后就可以使用上面的Python代码从文件中提取所有文本
我查看了PDFminer文档,查看是否有参数设置不正确,但没有找到有关此问题的任何信息。我想转换许多文件,因此使用Nitro Pro工具手动转换每个文件是不可行的
Tags:
目前没有回答
相关问题 更多 >
编程相关推荐