如何使用PyPDF2从.pdf文件中提取所有文本并将其作为字符串返回？

2024-04-28 20:50:49 发布

男 | 程序猿一只，喜欢编程写python代码。

我有一个单独的页面.pdfdocument，我想提取字符串：

'\n\n\n\n（订单列表：583 U.S.）\nMONDAY，2017年12月4日\nNorder未决案件\n17A550美国总统特朗普等人。五、夏威夷等。\向肯尼迪大法官提出的暂缓申请已获批准，并由地方法院提出™2017年10月20日，授予初步禁制令的命令被搁置\n终止对政府的处置™在美国的上诉第九巡回法庭的上诉及政府的处置™申请调取令状，如该令状应为\n\n。如有人寻求调取令状，而法院拒绝受理，本命令将自动终止。如果法庭将其呈请书送交法庭，则法庭应将其移交。\鉴于上诉法院决定迅速审理此案，我们希望上诉法院能迅速作出裁决。\nJustice Ginsburg和Sotomayor法官会否认这一申请。\n'

到目前为止，我已经写了：

def text_from_pdf_url(url):
    text = ''
    data = requests.get(url).content
    data_as_file = io.BytesIO(data)
    reader = PyPDF2.PdfFileReader(data_as_file)

最后一步我真的迷路了，请帮忙！在

Tags：字符串 text 订单命令 url 列表 data as

1条回答

网友

1楼 · 发布于 2024-04-28 20:50:49

您想要extractText()：

import PyPDF2

reader = PyPDF2.PdfFileReader('test.pdf', 'rb')
p = reader.getPage(0)
text = p.extractText()
print text

请注意，extractText()并不总是可靠的，并且对于某些PDF文件可能工作得很差，这取决于使用的生成器。在

如何使用PyPDF2从.pdf文件中提取所有文本并将其作为字符串返回？

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何使用PyPDF2从.pdf文件中提取所有文本并将其作为字符串返回？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >