Google Books 是如何工作的?有没有开源替代品?

0 投票
3 回答
769 浏览
提问于 2025-04-15 14:51

我被要求把一本完整的书在线发布,类似于谷歌图书的方式,也就是说,用户可以查看和打印,但不能下载。

这个过程基本上就是“高质量扫描”吗?有没有什么开源的解决方案可以“批量生成”这些高质量图片上的“水印”?假设你有一张原始图片,当用户在线查看时,我想实时重新生成这张图片,在上面加上水印和一些其他文字,这样的库在Python中有没有呢?当然是有的 :)

有什么建议吗?如果你之前做过这件事,请分享一下。

谢谢

3 个回答

0

可以看看这个slashdot上的问题,讨论的是如何复制谷歌的照片加激光网格技术。

1

我对Google图书了解不多,不过Python图像库可以用来加水印(这里有个ASPN的例子可以参考)。

4

很遗憾,谷歌使用了一种专利技术来扫描它的书籍,所以你可能还是得用传统的方法来处理。

谷歌开发了一种非常厉害的红外相机技术,这种技术可以在书本放进扫描仪时,检测书页的三维形状和角度。然后,这些信息会传送给OCR软件,帮助软件调整这些扭曲的部分,从而让OCR软件能更准确地读取文本。这样就不用担心书本的装订损坏,也不需要使用笨重的玻璃板了。

基本上,你需要用一个OCR应用程序来扫描书籍(tesseract就不错),然后我会把扫描的文本生成一个PDF或图片,最后再在上面加上水印。Python Imaging Library似乎是做这个的最佳工具。

撰写回答