使用python将多页pdf中的每个段落提取到每个excel单元格

2024-04-26 23:56:59 发布

您现在位置:Python中文网/ 问答频道 /正文

我只得到数据,但没有格式

使用python将多页pdf中的每个段落提取到每个excel单元格

我有1000的多页pdf文件,提取1000的excel文件的格式。如何确定每个段落的开头和结尾

    import PyPDF2 as p

    PDFfilename = "abc.pdf"

    pdfread = p.PdfFileReader(open(PDFfilename, "rb"))

    f = open("1.xls", "x")
    i = 0
    while i < pdfread.getNumPages():
          Allinfo = pdfread.getPage(i)
          f.writelines(Allinfo.extractText())
          i = i + 1
      f.close()

Tags: 文件数据importpdfas格式结尾open