如何使用PyPDF2从.pdf文件中提取所有文本并将其作为字符串返回?

2024-04-28 20:50:49 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个单独的页面.pdfdocument,我想提取字符串:

'\n\n\n\n(订单列表:583 U.S.)\nMONDAY,2017年12月4日\nNorder未决案件\n17A550美国总统特朗普等人。五、 夏威夷等。\向肯尼迪大法官提出的暂缓申请已获批准,并由地方法院提出™2017年10月20日,授予初步禁制令的命令被搁置\n终止对政府的处置™在美国的上诉第九巡回法庭的上诉及政府的处置™申请调取令状,如该令状应为\n\n。如有人寻求调取令状,而法院拒绝受理,本命令将自动终止。如果法庭将其呈请书送交法庭,则法庭应将其移交。\鉴于上诉法院决定迅速审理此案,我们希望上诉法院能迅速作出裁决。\nJustice Ginsburg和Sotomayor法官会否认这一申请。\n'

到目前为止,我已经写了:

def text_from_pdf_url(url):
    text = ''
    data = requests.get(url).content
    data_as_file = io.BytesIO(data)
    reader = PyPDF2.PdfFileReader(data_as_file)

最后一步我真的迷路了,请帮忙!在


Tags: 字符串text订单命令url列表dataas
1条回答
网友
1楼 · 发布于 2024-04-28 20:50:49

您想要extractText()

import PyPDF2

reader = PyPDF2.PdfFileReader('test.pdf', 'rb')
p = reader.getPage(0)
text = p.extractText()
print text

请注意,extractText()并不总是可靠的,并且对于某些PDF文件可能工作得很差,这取决于使用的生成器。在

相关问题 更多 >