如何从特定的pdf页面而不是整个文档中访问文本

0 45491 1 45491 2 45491 3 45491 4 45491 5 45491 6 45491 7 45491 8 45491 9 45492 10 45492 11 45492 12 45492 13 45492 14 45492 15 45492 16 45492 17 45492 18 45492 19 45492 20 45492 21 45492 22 45492 23 45492 24 45492 25 45492 26 45492 27 45492 28 45492 29 88408 30 42990 31 42990 32 42990 33 42990 34 42990 35 42990 36 42990 37 42990 38 42990 39 42990 40 42990 41 42990 42 42990 43 42990 44 42990 45 42990 46 42990 47 42990 48 42990 49 42990 50 42990 51 42990 52 42990 53 42990 54 42990 55 42990 56 42990

2条回答

网友

1楼 · 编辑于 2024-04-26 07:55:53

请尝试以下方法从该pdf的任何特定页面获取文本。你知道吗

import fitz

path = r''

doc = fitz.open(path)
page = doc.loadPage(1) #put here the page number
page_to_text = page.getText("text")
print(page_to_text)

网友

2楼 · 编辑于 2024-04-26 07:55:53

您可能需要考虑PyPDF2，它的PdfFileReader类有一个getPage方法

文档：PyPDF2 docs

编程相关推荐

固件文件的java容器：二进制数据部分的集合
java如何查找和跳过单词开头和结尾的特殊字符
JavaFXMaven插件：com。zenjava jfx:jar是否包含所有依赖项？
用户界面使Java Netbeans GUI生成器在读取文本文件的某些部分之前等待事件发生
由于Kotlin中存在未解析的引用，java无法设置文本或可绘制
java JSON解析嵌套数组对象
java如何使用Hibernate（EntityManager）或JPA调用Oracle函数或过程
链接列表末尾的java插入节点
jaxb EclipseLink Moxy:Java类型绑定不使用子类型（组合）
java为什么选择事件源模式中的事件流？

相关问题更多 >

编程相关推荐

热门问题

热门文章