如何使用PyMuPDF将链接与文本匹配？

Question

我想用PyMuPDF从PDF文件中提取文本和链接。我已经用page.get_links()提取了链接，但我想知道，怎么才能把这些链接和page.get_text()提取的文本对应起来呢？

Answer 1

如果我理解得没错，你可以提取所有包含 "uri" 的 Rect 元素，然后把它们传递给 get_textbox 方法：

import fitz  # pymupdf

links = {}
with fitz.open("input.pdf") as doc:
    for page in doc:
        links[page.number + 1] = {
            page.get_textbox(d["from"]).strip("."): d["uri"]
            for d in page.get_links()
        }

输出结果：

{
    1: {
        "StackOverflow": "https://stackoverflow.com/",
        "Meta": "https://meta.stackoverflow.com/",
        "GIS Exchange": "https://gis.stackexchange.com/",
    }
}

使用的文件 (input.pdf)：

如何使用PyMuPDF将链接与文本匹配？

1 个回答

撰写回答