Python从网页PDF中提取文本

2024-06-17 10:11:03 发布

您现在位置:Python中文网/ 问答频道 /正文

因此,我遇到了一些帖子,涉及到将PDF转换为HTML或将它们转换为文本,但是它们都是从保存到计算机的文件中进行处理的。有没有一种方法可以在不下载PDF文件的情况下从一个PDF网页中提取文本(就像我将通过遍历一个URL列表对大量文件这样做)?在

我也很好奇哪一个是实现这一目标的最佳库。pdfkit、pdf2txt、pdfminer等。?在

下面是一个我将要处理的格式的示例网站:http://www.arkansasrazorbacks.com/wp-content/uploads/2017/02/Miami-Ohio-Game-2.pdf


Tags: 文件方法文本url网页目标列表pdf
1条回答
网友
1楼 · 发布于 2024-06-17 10:11:03

您可以将文件作为字节流下载,并使用requests将其包装为io.BytesIO(),如下所示:

import io

import requests
from pyPdf import PdfFileReader

url = 'http://www.arkansasrazorbacks.com/wp-content/uploads/2017/02/Miami-Ohio-Game-2.pdf'

r = requests.get(url)
f = io.BytesIO(r.content)

reader = PdfFileReader(f)
contents = reader.getPage(0).extractText().split('\n')

f是一个类似文件的对象,可以像打开PDF文件一样使用。这样文件就只在内存中,而不会在本地保存。在

为了从PDF文件中获取文本,可以使用PyPdf。在

相关问题 更多 >