有 Java 编程相关的问题?

你可以在下面搜索框中键入要查询的问题!

java SOLR 6.6 OCR扫描的PDF文件

8 月，2 周 Questions & Answers 801

我在Linux上安装了一个非常默认的SOLR 6.6.0（用户指南），运行良好。现在我还需要在扫描的PDF文件上进行全文（OCR）搜索。我读过关于Tesseract的图片。但是我找不到一个很好的教程如何用PDF实现这一点。有什么建议吗

谢谢，弗洛

Tags:

共 (1) 个答案

# 1 楼答案
你应该使用ExtractingRequestHandler

在这里，您可以找到配置示例，这些示例可以帮助您：
- http://blog.thedigitalgroup.com/vijaym/using-solr-and-tikaocr-to-search-text-inside-an-image/
- https://fr.hortonworks.com/hadoop-tutorial/indexing-and-searching-text-within-images-with-apache-solr/