有没有方法可以从PostScript文件中提取文本信息?(.ps .eps)

3 投票
1 回答
1730 浏览
提问于 2025-04-16 11:27

我想从一个后处理图像文件中提取文本信息(也就是我坐标轴标签的说明)。这些图像是用pgplot生成的。我在Ubuntu上试过ps2ascii和ps2txt,但它们没有产生任何有用的结果。有没有人知道其他的方法?

谢谢

1 个回答

6

很可能pgplot是直接用线条画出文本的字体,而不是用文字来显示。尤其是因为pgplot是为了能在很多设备上输出而设计的,包括绘图仪,这种情况下你必须这样做。

补充说明:

如果你有足够多的图表,值得花时间去处理,那这其实是一个很简单的图像处理任务。你可以把每一页转换成像tiff这样的格式,使用单色模式,把图像处理成二进制格式,这样文本部分就会是最大像素值。

可以使用模板匹配的方法。如果你有一组有限的可能标签,那就直接匹配整个标签,甚至可以先用正确大小和角度的模板开始。然后只需标记每个图表包含标签[1-n],不需要实际读取文本内容。

如果你不知道标签是什么,仍然可以相对简单地进行光学字符识别(OCR),只需提取坐标轴周围的区域,旋转它以适应竖直方向,然后使用谷歌的免费OCR库。

如果你有pgplot,甚至可以直接为OCR构建训练集或模板图像,而不必从图像列表中提取它们。

撰写回答