如何使用PyMuPDF将链接与文本匹配?
我想用PyMuPDF从PDF文件中提取文本和链接。我已经用page.get_links()
提取了链接,但我想知道,怎么才能把这些链接和page.get_text()
提取的文本对应起来呢?
1 个回答
0
如果我理解得没错,你可以提取所有包含 "uri" 的 Rect
元素,然后把它们传递给 get_textbox
方法:
import fitz # pymupdf
links = {}
with fitz.open("input.pdf") as doc:
for page in doc:
links[page.number + 1] = {
page.get_textbox(d["from"]).strip("."): d["uri"]
for d in page.get_links()
}
输出结果:
{
1: {
"StackOverflow": "https://stackoverflow.com/",
"Meta": "https://meta.stackoverflow.com/",
"GIS Exchange": "https://gis.stackexchange.com/",
}
}
使用的文件 (input.pdf
):