如何从表格PDF中提取粗体文本?

2024-03-28 13:28:06 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图从表格格式的PDF中提取粗体文本。我已经使用“pythondocx”库从PDF中提取了粗体文本。现在我正努力从PDF中提取粗体文本。你知道吗

首先,我用Word将我的PDF文件转换成docx文件。我手动打开它,然后将它保存为.docx格式。(我需要自动化它,所以如果你有任何想法。。我想我会创建一个bat文件)

总之,我在我的docx表格文件上执行以下代码:

import docx

def extract_bolds(file_path):
    document = docx.Document(file_path)
    for table in document.tables:
        for row in table.rows:
            for cell in row.cells:
                for para in cell.paragraphs:
                    for run in para.runs:
                        if run.bold :
                            print(run.text)
extract_bolds('my_docx_file_path.docx')

所以这是有点工作,但我有重复的结果。你知道吗

例如,预期结果可能是: '福' '酒吧'

但我得到的是: '福' '福' '福' '福' '酒吧' '酒吧' '酒吧' '酒吧'

谢谢


Tags: 文件pathrunin文本forpdf格式