Python从网页PDF中提取文本 - 问答 - Python中文网

Python从网页PDF中提取文本

2024-06-17 10:11:03 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

因此，我遇到了一些帖子，涉及到将PDF转换为HTML或将它们转换为文本，但是它们都是从保存到计算机的文件中进行处理的。有没有一种方法可以在不下载PDF文件的情况下从一个PDF网页中提取文本（就像我将通过遍历一个URL列表对大量文件这样做）？在

我也很好奇哪一个是实现这一目标的最佳库。pdfkit、pdf2txt、pdfminer等。？在

下面是一个我将要处理的格式的示例网站：http://www.arkansasrazorbacks.com/wp-content/uploads/2017/02/Miami-Ohio-Game-2.pdf

Tags：文件方法文本 url 网页目标列表 pdf

1条回答

网友

1楼 · 发布于 2024-06-17 10:11:03

您可以将文件作为字节流下载，并使用requests将其包装为io.BytesIO()，如下所示：

import io

import requests
from pyPdf import PdfFileReader

url = 'http://www.arkansasrazorbacks.com/wp-content/uploads/2017/02/Miami-Ohio-Game-2.pdf'

r = requests.get(url)
f = io.BytesIO(r.content)

reader = PdfFileReader(f)
contents = reader.getPage(0).extractText().split('\n')

f是一个类似文件的对象，可以像打开PDF文件一样使用。这样文件就只在内存中，而不会在本地保存。在

为了从PDF文件中获取文本，可以使用PyPdf。在

相关问题更多 >

编程相关推荐

热门问题

热门文章