java Tesseract:在hOCR文件中获取单词可信度(x_wconf)
我目前使用Java通过命令行调用Tesseract,输出模式设置为hOCR。我几乎不知道任何与C编程相关的东西,虽然我可以阅读源代码,但仅此而已
我希望能够在hOCR文件中获得单词信心信息。我在网上找到了一些“答案”。从在设置文件中设置值到更改并重新编译源代码
我正在使用最新版本的Tesseract,如何从Java中获得单词confidence(x_wconf)
你可以在下面搜索框中键入要查询的问题!
我目前使用Java通过命令行调用Tesseract,输出模式设置为hOCR。我几乎不知道任何与C编程相关的东西,虽然我可以阅读源代码,但仅此而已
我希望能够在hOCR文件中获得单词信心信息。我在网上找到了一些“答案”。从在设置文件中设置值到更改并重新编译源代码
我正在使用最新版本的Tesseract,如何从Java中获得单词confidence(x_wconf)
# 1 楼答案
hOCR是HTML,因此需要一个HTML解析器来提取所需的属性。试试jsoup、HtmlCleaner或HTML Parser