我试图从表格格式的PDF中提取粗体文本。我已经使用“pythondocx”库从PDF中提取了粗体文本。现在我正努力从PDF中提取粗体文本。你知道吗
首先,我用Word将我的PDF文件转换成docx文件。我手动打开它,然后将它保存为.docx格式。(我需要自动化它,所以如果你有任何想法。。我想我会创建一个bat文件)
总之,我在我的docx表格文件上执行以下代码:
import docx
def extract_bolds(file_path):
document = docx.Document(file_path)
for table in document.tables:
for row in table.rows:
for cell in row.cells:
for para in cell.paragraphs:
for run in para.runs:
if run.bold :
print(run.text)
extract_bolds('my_docx_file_path.docx')
所以这是有点工作,但我有重复的结果。你知道吗
例如,预期结果可能是: '福' '酒吧'
但我得到的是: '福' '福' '福' '福' '酒吧' '酒吧' '酒吧' '酒吧'
谢谢
目前没有回答
相关问题 更多 >
编程相关推荐