基于坐标或tessaract提取图像数据,并将内容写入docs/docx word fi

2024-04-26 10:18:54 发布

您现在位置:Python中文网/ 问答频道 /正文

我有图像。我想用python将具有相同布局的图像数据以可读形式提取到docx文件中。我已经尝试过了 在图像上应用tessaract并使用PyteSract转换为pdf 然后将pdf转换为word文件 但我无法保持布局和格式


Tags: 文件数据图像pdf格式布局形式word
1条回答
网友
1楼 · 发布于 2024-04-26 10:18:54

这个问题已经在in here之前得到了回答。您可以使用pdf2image库来解决此问题:

from pdf2image import convert_from_path

pages = convert_from_path('sample.pdf', 400) //400 is the Image quality in DPI (default 200)

pages[0].save("sample.png")

相关问题 更多 >