我试图使用Python中的pyPDF包阅读下面链接上的PDF文档。 http://www.hdfcsec.com/Share-Market-Research/Research-Details/StockReports/3011454
我使用以下代码阅读PDF:
###########Beginning of Code########
import os
import glob
from pyPdf import PdfFileReader
filename = os.path.abspath('F:/KG/per/Entr/equity research Text mining tool/HDFC_report.pdf')
input = PdfFileReader(file(filename, "rb"))
for page in input.pages:
print page.extractText()
###########End of Code########
但是,返回的文本有些地方有点混乱。例如,我复制了下面的部分输出。这张桌子好像和文字混在一起了。是否有一种更为系统化的方式,以适当的格式逐节阅读文本、表格,以使其适合处理:
****INFOSYS:公司更新现金流(百万卢比)2013财年2014财年2015财年E 2016财年2017财年报告PAT 94210 106480 124795 138276 152349营业外利息收入(12006)(14445)(16750)(18090)(18090)营业外利息收入82204 92035 108045 120186 134259折旧11290 13740 10907 12336 12803营运资本变动(10,720)(190)(2442)(11324)(10301)经营现金流(a)82774 107425 116510 121198 136761资本支出+收购(32470)(27450)(22000)(22000)(22000)自由现金流50304 79975 94510 99198 114761投资(6034)(8135)16750 18090 18090投资现金流(b)(38504)(35585)(5250)(3910)(3,910)股本发行10--募集债务(890)----****
我发现PDF miner API在提取PDF内容方面做得很好。 请通过https://dzone.com/articles/pdf-reading和{a2}
pdf2文本.py-o输出.htm报告.pdf在
我只是想从你用pdf2给出的PDF文件中获取文本文本.pyAPI附带的。它可以无缝地输出html文件。我看到有些人被解雇了。但是,随着进一步的了解。希望您可以轻松地从HTML输出中提取所需的内容。在
祝你一切顺利 文卡特
相关问题 更多 >
编程相关推荐