从docx文件中提取特定字体的文本
我正在使用 Python 3.4 和 python-docx
库来处理 .docx
文件。我已经能够从文档中提取文本了。但我的目标是只提取那些特定字体的文本(并对它们进行修改)。
这两天我一直在查阅这个库的文档,但没有找到相关的信息。
这里有没有人有使用这个库的经验,如果有的话,能不能给我一些指引?
1 个回答
2
目前,python-docx
这个库只能通过样式来设置字体类型。你可以这样检查哪些文本段落使用了特定的样式:
document = Document('having-fonts.docx')
for paragraph in document.paragraphs:
for run in paragraph.runs:
if run.style == style_I_want:
print run.text
如果特殊字体是通过段落样式来应用的,你可以使用下面的方法:
document = Document('having-fonts.docx')
for paragraph in document.paragraphs:
if paragraph.style == style_I_want:
print paragraph.text
如果你能提供更多具体的信息,我可能能给出更详细的建议。