我使用Word的sections术语,使每个页面都有不同的页眉,在这里我用一些标记来标记页面,比如{page1}
。
使用python-docx
我可以通过以下方式获取节:
doc = Document(my_file)`
doc_sections = doc.sections
doc_page_one = doc_sections[0]
我可以得到每页的页眉和页脚及其文本:
doc_page_one.header.paragraphs[0].text
但我看不到实际的页面内容/正文或形状,在调试时我无法找到它们的位置。
python-docx
有这种可能性吗?
目前,
python-docx
没有API支持来获取我想象中的“块项”(段落+表)是“包含”在某个部分中的。在如果您非常想要底层XML,就必须导航它,可能从
document.__body
开始。您可以通过以下方式了解它的外观:基本上,您将查找
w:sectPr
元素,每个元素的结束于一个部分。这里有关于python-docx
分析页面中所涉及的XML模式的更多细节:https://python-docx.readthedocs.io/en/latest/dev/analysis/features/sections.html相关问题 更多 >
编程相关推荐