我只得到数据,但没有格式
使用python将多页pdf中的每个段落提取到每个excel单元格
我有1000的多页pdf文件,提取1000的excel文件的格式。如何确定每个段落的开头和结尾
import PyPDF2 as p
PDFfilename = "abc.pdf"
pdfread = p.PdfFileReader(open(PDFfilename, "rb"))
f = open("1.xls", "x")
i = 0
while i < pdfread.getNumPages():
Allinfo = pdfread.getPage(i)
f.writelines(Allinfo.extractText())
i = i + 1
f.close()
目前没有回答
相关问题 更多 >
编程相关推荐