使用pyPDF阅读时，未能正确获取PDF中的文本格式

2024-05-16 03:29:52 发布

您现在位置：Python中文网/ 问答频道 /正文

3052

网友

男 | 程序猿一只，喜欢编程写python代码。

我试图使用Python中的pyPDF包阅读下面链接上的PDF文档。 http://www.hdfcsec.com/Share-Market-Research/Research-Details/StockReports/3011454

我使用以下代码阅读PDF：

    ###########Beginning of Code########
    import os
    import glob
    from pyPdf import PdfFileReader

    filename = os.path.abspath('F:/KG/per/Entr/equity research Text mining  tool/HDFC_report.pdf')

    input = PdfFileReader(file(filename, "rb"))
    for page in input.pages:
        print page.extractText()
    ###########End of Code########

但是，返回的文本有些地方有点混乱。例如，我复制了下面的部分输出。这张桌子好像和文字混在一起了。是否有一种更为系统化的方式，以适当的格式逐节阅读文本、表格，以使其适合处理：

****INFOSYS：公司更新现金流（百万卢比）2013财年2014财年2015财年E 2016财年2017财年报告PAT 94210 106480 124795 138276 152349营业外利息收入（12006）（14445）（16750）（18090）（18090）营业外利息收入82204 92035 108045 120186 134259折旧11290 13740 10907 12336 12803营运资本变动（10，720）（190）（2442）（11324）（10301）经营现金流（a）82774 107425 116510 121198 136761资本支出+收购（32470）（27450）（22000）（22000）（22000）自由现金流50304 79975 94510 99198 114761投资（6034）（8135）16750 18090 18090投资现金流（b）（38504）（35585）（5250）（3910）（3，910）股本发行10--募集债务（890）----****

Tags： of 文本 import input pdf os page code

1条回答

网友

1楼 · 发布于 2024-05-16 03:29:52

我发现PDF miner API在提取PDF内容方面做得很好。请通过https://dzone.com/articles/pdf-reading和{a2}

pdf2文本.py-o输出.htm报告.pdf在

我只是想从你用pdf2给出的PDF文件中获取文本文本.pyAPI附带的。它可以无缝地输出html文件。我看到有些人被解雇了。但是，随着进一步的了解。希望您可以轻松地从HTML输出中提取所需的内容。在

祝你一切顺利文卡特

使用pyPDF阅读时，未能正确获取PDF中的文本格式

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用pyPDF阅读时，未能正确获取PDF中的文本格式

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >