有 Java 编程相关的问题?

你可以在下面搜索框中键入要查询的问题!

java Tesseract：在hOCR文件中获取单词可信度（x_wconf）

1 周，1 日 Questions & Answers 2558

我目前使用Java通过命令行调用Tesseract，输出模式设置为hOCR。我几乎不知道任何与C编程相关的东西，虽然我可以阅读源代码，但仅此而已

我希望能够在hOCR文件中获得单词信心信息。我在网上找到了一些“答案”。从在设置文件中设置值到更改并重新编译源代码

我正在使用最新版本的Tesseract，如何从Java中获得单词confidence（x_wconf）

Tags:

共 (1) 个答案

# 1 楼答案

hOCR是HTML，因此需要一个HTML解析器来提取所需的属性。试试jsoup、HtmlCleaner或HTML Parser