用Python提取PDF文件中的文本?

5 投票
2 回答
8031 浏览
提问于 2025-04-15 15:38

有没有一个Python的库,可以让我打开PDF文件,并在里面搜索特定的文字?

2 个回答

4

我觉得你不能一步到位,但你可以用 pdfminer 从PDF文件中提取出文字。然后,你可以对提取出来的文字进行任何你想要的搜索。

12

使用 PyPdf2 这个库,你可以用 extractText() 这个方法来提取PDF文件中的文字,然后对这些文字进行处理。

更新:把内容改成提到PyPdf2,感谢@Aditya Kumar的提醒。

撰写回答