无法从pdf文件中复制粘贴乌尔都语文本(在我的编辑器中获取的是weired英语文本而不是乌尔都语)

2024-05-23 17:43:25 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在使用tesseract并使用以下命令将图像转换为可搜索的pdf格式。在

tesseract test.png -l urd -psm 3 result pdf

这是我转换成pdf格式的图像。在

enter image description here

转换后,当我复制pdf文件中的文本并粘贴到任何文本编辑器(word、记事本等)4中时,我得到以下结果。在

Lf ELINOR BI LF ERE I LPM DAT? MON IVAN DEBI OE SI D7 Pipips FEIN AAASQE PIAA IG or esddspp- PLDI AOL ko26RDLT HOY

我试过两种方法(在acrobat中打开pdf文件,在浏览器中打开文件,在文本编辑器中复制/粘贴数据,这两种方法都不适合我,我还尝试了以下两个链接上给出的所有解决方案,没有一个解决方案对我有效。在

^{pr2}$

以及

https://stackoverflow.com/questions/12703387/pdf-font-encoding-why-cant-i-copy-text-from-a-pdf

任何帮助将不胜感激。提前谢谢。在


Tags: 文件方法test图像命令pdfpng粘贴