PythonPdfMiner如何获取pdf中每个单词/句子的方向信息？

from pdfminer.high_level import extract_pages from pdfminer.layout import LTTextContainer, LAParams page_info = list(extract_pages('pdfminer/text_with_orientation.pdf' , laparams= LAParams(detect_vertical=True ) ) ) for page in page_info: for element in page: if isinstance(element, LTTextContainer): print(element.get_text())

from pdfminer.high_level import extract_pages from pdfminer.layout import LTTextContainer, LAParams , LTChar page_info = list(extract_pages('pdfminer/text_with_orientation.pdf' , laparams= LAParams(detect_vertical=True ) ) ) for page in page_info: for element in page: if isinstance(element, LTTextContainer): for text_line in element: for character in text_line: if isinstance(character, LTChar): print('======================') print('text:',character.get_text()) print('fontname:',character.fontname[7:]) print('size:',character.size) print('adv:',character.adv) # textwidth * fontsize * scaling print('matrix:',character.matrix) (_,_,x,y) = character.bbox print('x dim:',x,'and y dim:',y) print('\n')

1条回答

网友

1楼 · 发布于 2024-04-20 04:42:48

经过大量的调查，我终于找到了一种方法，通过使用LTChar中包含的矩阵在字符级别实现这一点

因此，为了获得0度的所有字符，我执行以下操作：

for page in label_pages:
    for element in page:
        if isinstance(element, LTTextContainer):
            for text_line in element:
                for character in text_line:
                    if isinstance(character, LTChar):
                        if character.matrix[0]>0 :
                            print('======================')
                            print('text:',character.get_text())    
                            print('matrix:',character.matrix)     
                            (_,_,x,y) = character.bbox 
                            print('x dim:',x,'and y dim:',y) 
                            print('\n')

相关问题更多 >

编程相关推荐

热门问题

热门文章