使用urllib2远程读取pdf

import urllib2 import PyPDF2 import io URL = 'http://loc.gov/aba/publications/FreeLCC/A-outline.pdf' remote_file = urllib2.urlopen(URL).read() memory_file = io.BytesIO(remote_file) read_pdf = PyPDF2.PdfFileReader(memory_file) number_of_pages = read_pdf.getNumPages() for i in range(0, number_of_pages): pageObj = read_pdf.getPage(i) page = pageObj.extractText() print (page)

1条回答

网友

1楼 · 发布于 2024-06-16 09:48:43

Source

import urllib2
import PyPDF2
import io

URL = 'http://loc.gov/aba/publications/FreeLCC/A-outline.pdf'
req = urllib2.Request(URL, headers={'User-Agent' : "Magic Browser"}) 
remote_file = urllib2.urlopen(req).read()
memory_file = io.BytesIO(remote_file)

read_pdf = PyPDF2.PdfFileReader(memory_file)
number_of_pages = read_pdf.getNumPages()

for i in range(0, number_of_pages):
    pageObj = read_pdf.getPage(i)
    page = pageObj.extractText()
    print (page)

编程相关推荐

java使用McClickListener单击了什么元素
Java时间戳在Oracle时间戳中不同情况下存储12 PM的奇怪行为
java无法使用事件总线对运行在不同机器上的垂直体进行通信
java Mockserver：收到请求后进行回调
java无法将Json字符串转换为Map<string，Object>
java如何按升序排列输出？
java视图行，带有oracle键。jbo。在SrCategoryParentIterator中找不到键[300100120394155]
javafxmysql连接示例
java正在等待加载完成
java是否可以将同一个有状态会话bean实例注入多个其他会话bean？

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用urllib2远程读取pdf

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >