我有一个单独的页面.pdfdocument,我想提取字符串:
'\n\n\n\n(订单列表:583 U.S.)\nMONDAY,2017年12月4日\nNorder未决案件\n17A550美国总统特朗普等人。五、 夏威夷等。\向肯尼迪大法官提出的暂缓申请已获批准,并由地方法院提出™2017年10月20日,授予初步禁制令的命令被搁置\n终止对政府的处置™在美国的上诉第九巡回法庭的上诉及政府的处置™申请调取令状,如该令状应为\n\n。如有人寻求调取令状,而法院拒绝受理,本命令将自动终止。如果法庭将其呈请书送交法庭,则法庭应将其移交。\鉴于上诉法院决定迅速审理此案,我们希望上诉法院能迅速作出裁决。\nJustice Ginsburg和Sotomayor法官会否认这一申请。\n'
到目前为止,我已经写了:
def text_from_pdf_url(url):
text = ''
data = requests.get(url).content
data_as_file = io.BytesIO(data)
reader = PyPDF2.PdfFileReader(data_as_file)
最后一步我真的迷路了,请帮忙!在
您想要
extractText()
:请注意,
extractText()
并不总是可靠的,并且对于某些PDF文件可能工作得很差,这取决于使用的生成器。在相关问题 更多 >
编程相关推荐