使用python将多页pdf中的每个段落提取到每个excel单元格 - 问答 - Python中文网

使用python将多页pdf中的每个段落提取到每个excel单元格

2024-04-26 23:56:59 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我只得到数据，但没有格式

使用python将多页pdf中的每个段落提取到每个excel单元格

我有1000的多页pdf文件，提取1000的excel文件的格式。如何确定每个段落的开头和结尾

    import PyPDF2 as p

    PDFfilename = "abc.pdf"

    pdfread = p.PdfFileReader(open(PDFfilename, "rb"))

    f = open("1.xls", "x")
    i = 0
    while i < pdfread.getNumPages():
          Allinfo = pdfread.getPage(i)
          f.writelines(Allinfo.extractText())
          i = i + 1
      f.close()

Tags：文件数据 import pdf as 格式结尾 open

0条回答

目前没有回答

相关问题更多 >

编程相关推荐

热门问题

热门文章