简化python docx文档对象的实用程序
simplify-docx的Python项目详细描述
概述
docx文件很复杂,它们的复杂性使得抓取文档成为可能
因为他们的内容很难。这个包的目的是简化
.docx
文件只包含有意义的组件,从而简化
通过转换a.docx
将文件转换成可预测的人类可读的json文件。
把复杂的文档简化为有意义的部分 需要对什么在 文件。通常,这个包的立场是 结构(正文、段落、表格等)和正文一样有意义 本身,而文本样式(字体、字体粗细等)几乎被忽略 完全,除了段落缩进和编号 通常用于创建列表、块引号等。 期权部分解释了本包所表达的意见 可根据您的需要进行更改。
用法
importdocxfromsimplify_docximportsimplify# read in a document my_doc=docx.Document("/path/to/my/favorite/file.docx")# coerce to JSON using the standard optionsmy_doc_as_json=simplify(my_doc)# or with non-standard optionsmy_doc_as_json=simplify(my_doc,{"remove-leading-white-space":False})
安装
当您提交拉取请求时,cla bot将自动确定您是否需要提供 a cla并适当地装饰pr(例如,标签、注释)。只需按照说明操作 由机器人提供。您只需使用我们的CLA在所有回购协议中执行一次即可。
本项目采用了微软开源行为准则。 有关更多信息,请参见行为准则常见问题解答或 如有任何其他问题或意见,请联系opencode@microsoft.com。