python 将pdf转换为文本
我想把PDF文件转换成文本。我在Python命令提示符下试了这个代码,但没有任何输出。可能是我哪里做错了。你能告诉我我错在哪里吗?提前谢谢你。
import pyPdf
def getPDFContent(path):
content = ""
# Load PDF into pyPDF
pdf = pyPdf.PdfFileReader(file(path, "rb"))
# Iterate pages
for i in range(0, pdf.getNumPages()):
# Extract text from page and add to content
content += pdf.getPage(i).extractText() + "\n"
# Collapse whitespace
content = " ".join(content.replace(u"\xa0", " ").strip().split())
return content
print getPDFContent("test.pdf").encode("ascii", "ignore")
1 个回答
2
如果你的PDF文件里面只有图片(比如扫描的页面),那么你就无法提取任何文字了。