我只想说一句话。所以我希望当我运行pytesseract时,我能得到有用的数据
相反,我得到的字符串是'Ce eet il ae oe a on) os\n\nooo eo oo oo oom om om om)\n\n[OO COCO ORR OW OR PRP ODWWG\n\neyo fe) Fee ote) = = - = = eo me-e-)\n\n(Ss: oo ~7~oO 0 0\n\neB\n\n© te O fa ©\n\nOORFONONWR OW DFW NN\n\nVaso\nVES -5)\n1866\nnny\n1625\n1368\nLt\n1070\n898\n838\nwhey)\nom\na\nRie)\n15\n\nny,\n\n=ARAM= gksvlrwOlf\nDarth_Zipzap\naE a\njohnny478423\n=CNAPG _920831993\nOLOLUCTIIN AG\nRivDecartes\nfleadog406\nFormula13\n\nxL LongDubber\nDankdudledan\n_Trix_1740\n\nLUT engl)\n\n=MOPB= JP_Akatonbo\nPlutoh71689\nMakinHerSquirt\n\x0c'
我试着用灰色缩放它,但没有用。我想如果这里有离散的列,我就可以在空格和换行符上拆分字符串,但是……不行
任何指向正确方向的指示都将不胜感激
在以前的实验中,我遇到了一些问题,因为像小控制器图标这样的图像,我只能在将图像传递给tesseract之前检测并屏蔽这些图像。但在这幅图中,tesseract无法非常一致地识别列中的数字
将图像转换为灰度将加快计算速度,因为您正在从3通道减少到1通道。如果你的意思是“我已经应用了预处理,但是没有用”,那么你应该看看下面的techniques。转换为灰度不是一种预处理,而是一种计算优势
你试过不同的page-segmentation-modes吗?有时识别输入文本的默认值不准确。因此,您应该尝试其他模式
输入图像的第一个事实是,您不需要第二部分。如果当前图像大小为
H
和W
,则需要H/2
和W
第二个事实是我们需要binarize图像。结果将是:
如果您读取结果图像,假设一个统一的文本块:
与之前的尝试相比,您将获得更准确的结果。然而,并不是每个单词都能被准确识别。您可以执行以下操作:
代码:
相关问题 更多 >
编程相关推荐