如何使用PyMuPDF将链接与文本匹配?

0 投票
1 回答
39 浏览
提问于 2025-04-14 18:29

我想用PyMuPDF从PDF文件中提取文本和链接。我已经用page.get_links()提取了链接,但我想知道,怎么才能把这些链接和page.get_text()提取的文本对应起来呢?

1 个回答

0

如果我理解得没错,你可以提取所有包含 "uri"Rect 元素,然后把它们传递给 get_textbox 方法:

import fitz  # pymupdf

links = {}
with fitz.open("input.pdf") as doc:
    for page in doc:
        links[page.number + 1] = {
            page.get_textbox(d["from"]).strip("."): d["uri"]
            for d in page.get_links()
        }

输出结果:

{
    1: {
        "StackOverflow": "https://stackoverflow.com/",
        "Meta": "https://meta.stackoverflow.com/",
        "GIS Exchange": "https://gis.stackexchange.com/",
    }
}

使用的文件 (input.pdf):

在这里输入图片描述

撰写回答