从docx文件中提取特定字体的文本

4 投票
1 回答
2381 浏览
提问于 2025-04-19 04:41

我正在使用 Python 3.4 和 python-docx 库来处理 .docx 文件。我已经能够从文档中提取文本了。但我的目标是只提取那些特定字体的文本(并对它们进行修改)。

这两天我一直在查阅这个库的文档,但没有找到相关的信息。

这里有没有人有使用这个库的经验,如果有的话,能不能给我一些指引?

1 个回答

2

目前,python-docx 这个库只能通过样式来设置字体类型。你可以这样检查哪些文本段落使用了特定的样式:

document = Document('having-fonts.docx')
for paragraph in document.paragraphs:
    for run in paragraph.runs:
        if run.style == style_I_want:
            print run.text

如果特殊字体是通过段落样式来应用的,你可以使用下面的方法:

document = Document('having-fonts.docx')
for paragraph in document.paragraphs:
    if paragraph.style == style_I_want:
        print paragraph.text

如果你能提供更多具体的信息,我可能能给出更详细的建议。

撰写回答