如何使用pdfminer从存储在S3 bucket中的PDF文件中提取文本，而无需在本地下载？

2024-04-20 03:55:36 发布

您现在位置：Python中文网/ 问答频道 /正文

8211

网友

男 | 程序猿一只，喜欢编程写python代码。

我有一个PDF存储在S3存储桶中。我想用pdfminer从那个PDF文件中提取文本

当文件存储在本地时，我可以使用以下代码进行提取：

from pdfminer3.layout import LAParams, LTTextBox
from pdfminer3.pdfpage import PDFPage
from pdfminer3.pdfinterp import PDFResourceManager
from pdfminer3.pdfinterp import PDFPageInterpreter
from pdfminer3.converter import PDFPageAggregator
from pdfminer3.converter import TextConverter
from pdfminer.high_level import extract_pages
from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
import io
from urllib.parse import urlparse

resource_manager = PDFResourceManager()
file_handle = io.StringIO()
converter = TextConverter(resource_manager, file_handle, laparams=LAParams())

page_interpreter = PDFPageInterpreter(resource_manager, converter)

pdf_file = 'file.pdf'

with open(pdf_file, 'rb') as fh:


    for page in PDFPage.get_pages(fh,
                              caching=True,
                              check_extractable=True):
        page_interpreter.process_page(page)

        text = file_handle.getvalue()

# close open handles
converter.close()
file_handle.close()
total_no_pages = len(list(extract_pages(pdf_file)))
print(total_no_pages)
print(text)

我可以用干净的方式提取文本

但是，我想对存储在S3中的PDF执行相同的操作

我已经连接到S3 bucket并获取如下数据：

import boto3, os

s3 = boto3.resource(
   service_name='s3',
   region_name=<region-name>,
   aws_access_key_id=<access-key>,
   aws_secret_access_key=<secret-key>
)

    
bucket_name = <bucket_name>
item_name = <folederName/file.pdf>

obj = s3.Object(bucket_name, item_name)
fs = obj.get()['Body'].read()

当我打印fs时，我看到它以字节为单位返回数据

请建议一种使用pdfminer存储在S3中的文本的方法

Tags： key name from import s3 bucket pdf page

1条回答

网友

1楼 · 发布于 2024-04-20 03:55:36

而不是

get_pages(fh,caching=True, check_extractable=True):

你可以：

get_pages(io.BytesIO(fs), caching=True, check_extractable=True):

顺便说一句，您仍然在从S3下载对象，但没有将它们实际保存在本地硬盘上

如何使用pdfminer从存储在S3 bucket中的PDF文件中提取文本，而无需在本地下载？

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何使用pdfminer从存储在S3 bucket中的PDF文件中提取文本，而无需在本地下载？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >