我正在尝试使用Python
提取thisPDF文件中包含的文本。
我正在使用PyPDF2模块,并具有以下脚本:
import PyPDF2
pdf_file = open('sample.pdf')
read_pdf = PyPDF2.PdfFileReader(pdf_file)
number_of_pages = read_pdf.getNumPages()
page = read_pdf.getPage(0)
page_content = page.extractText()
print page_content
当我运行代码时,得到的输出与PDF文档中包含的输出不同:
!"#$%#$%&%$&'()*%+,-%./01'*23%4
5'%1$#26%3/%7/))/8%&)/26%8#3"%3"*%313/9#&)
%
如何提取PDF文档中的文本?
使用textract。
它支持多种类型的文件,包括pdf
看看这个代码:
输出为:
使用相同的代码从201308FCR.pdf读取pdf 。输出正常。
它的documentation解释了为什么:
我们正在寻找一个用于Python3.x和windows的简单解决方案。似乎没有来自textract的支持,这是不幸的,但是如果您正在为windows/python 3寻找一个简单的解决方案,请签出tika包,非常直接地阅读pdf。
相关问题 更多 >
编程相关推荐