PythonPdfMiner如何获取pdf中每个单词/句子的方向信息?

2024-04-20 04:42:48 发布

您现在位置:Python中文网/ 问答频道 /正文

目标: 我想从PDF中提取每个单词或句子的方向信息,就像附件一样。这样做的原因是,我只想保持文本的方向为零度,而不是90180度或270度

我正在使用的文档是:text_with_orientation.pdf

我尝试过的: 我尝试的第一件事是使用参数:detect_vertical of LAParams of PDFMiner,但这对我没有帮助

当我尝试:“detect_vertical=True”时,我会从所有方向获取所有文本,但180度的句子(实际上是倒转的)顺序错误:

*上侧,第三行
上侧,第二行
这是盒子的上面。*

当我尝试:“detect_vertical=False”时,我会一个接一个地从侧面获取文本,但我仍然以错误的顺序从180度(实际上是倒转的)获取文本。两边的文字是一个接一个的

因为我只想过滤方向为0度的文本,上面的任何一个都帮不了我

用于此操作的代码如下所示:

from pdfminer.high_level import extract_pages 
from pdfminer.layout import LTTextContainer, LAParams

page_info = list(extract_pages('pdfminer/text_with_orientation.pdf' ,
                               laparams= LAParams(detect_vertical=True ) ) ) 
 
for page in page_info:
    for element in page:
        if isinstance(element, LTTextContainer): 
            print(element.get_text()) 

我尝试的第二件事是从最新级别的PDF布局(LTChar)获取此信息,如下所述:https://pdfminersix.readthedocs.io/en/latest/topic/converting_pdf_to_text.html#working-with-rotated-characters

我在这次尝试中使用的代码如下,但不幸的是,我只能得到:字体名称、字体大小和字符坐标,而不是方向:

from pdfminer.high_level import extract_pages
from pdfminer.layout import LTTextContainer, LAParams , LTChar
 
page_info = list(extract_pages('pdfminer/text_with_orientation.pdf' ,
                               laparams= LAParams(detect_vertical=True ) ) ) 
for page in page_info:
    for element in page:
        if isinstance(element, LTTextContainer):
            for text_line in element:
                for character in text_line:
                    if isinstance(character, LTChar):
                        print('======================')
                        print('text:',character.get_text()) 
                        print('fontname:',character.fontname[7:])
                        print('size:',character.size)   
                        print('adv:',character.adv)   # textwidth * fontsize * scaling  
                        print('matrix:',character.matrix)  
                        (_,_,x,y) = character.bbox 
                        print('x dim:',x,'and y dim:',y) 
                        print('\n') 

我不想使用的内容:

我不想使用Tesseract,因为我已经尝试过了,结果不如使用PDFMiner好

有什么建议吗


Tags: textin文本forpdfwithpageelement
1条回答
网友
1楼 · 发布于 2024-04-20 04:42:48

经过大量的调查,我终于找到了一种方法,通过使用LTChar中包含的矩阵在字符级别实现这一点

因此,为了获得0度的所有字符,我执行以下操作:

for page in label_pages:
    for element in page:
        if isinstance(element, LTTextContainer):
            for text_line in element:
                for character in text_line:
                    if isinstance(character, LTChar):
                        if character.matrix[0]>0 :
                            print('======================')
                            print('text:',character.get_text())    
                            print('matrix:',character.matrix)     
                            (_,_,x,y) = character.bbox 
                            print('x dim:',x,'and y dim:',y) 
                            print('\n') 

相关问题 更多 >