使用pyPDF阅读时,未能正确获取PDF中的文本格式

2024-05-16 03:29:52 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图使用Python中的pyPDF包阅读下面链接上的PDF文档。 http://www.hdfcsec.com/Share-Market-Research/Research-Details/StockReports/3011454

我使用以下代码阅读PDF:

    ###########Beginning of Code########
    import os
    import glob
    from pyPdf import PdfFileReader

    filename = os.path.abspath('F:/KG/per/Entr/equity research Text mining  tool/HDFC_report.pdf')

    input = PdfFileReader(file(filename, "rb"))
    for page in input.pages:
        print page.extractText()
    ###########End of Code########

但是,返回的文本有些地方有点混乱。例如,我复制了下面的部分输出。这张桌子好像和文字混在一起了。是否有一种更为系统化的方式,以适当的格式逐节阅读文本、表格,以使其适合处理:

****INFOSYS:公司更新现金流(百万卢比)2013财年2014财年2015财年E 2016财年2017财年报告PAT 94210 106480 124795 138276 152349营业外利息收入(12006)(14445)(16750)(18090)(18090)营业外利息收入82204 92035 108045 120186 134259折旧11290 13740 10907 12336 12803营运资本变动(10,720)(190)(2442)(11324)(10301)经营现金流(a)82774 107425 116510 121198 136761资本支出+收购(32470)(27450)(22000)(22000)(22000)自由现金流50304 79975 94510 99198 114761投资(6034)(8135)16750 18090 18090投资现金流(b)(38504)(35585)(5250)(3910)(3,910)股本发行10--募集债务(890)----****


Tags: of文本importinputpdfospagecode
1条回答
网友
1楼 · 发布于 2024-05-16 03:29:52

我发现PDF miner API在提取PDF内容方面做得很好。 请通过https://dzone.com/articles/pdf-reading和{a2}

pdf2文本.py-o输出.htm报告.pdf在

我只是想从你用pdf2给出的PDF文件中获取文本文本.pyAPI附带的。它可以无缝地输出html文件。我看到有些人被解雇了。但是,随着进一步的了解。希望您可以轻松地从HTML输出中提取所需的内容。在

祝你一切顺利 文卡特

相关问题 更多 >