类型错误：预期是字符缓冲对象

0 投票

1 回答

4955 浏览

提问于 2025-04-18 08:59

我一直在尝试把输出打印到一个新的文本文件里。但是我遇到了一个错误。

TypeError: expected a character buffer object

我想做的是把PDF文件转换成文本，然后把得到的文本复制到一个新文件里。

import pyPdf

def getPDFContent():
  content = ""
  # Load PDF into pyPDF
  pdf = pyPdf.PdfFileReader(file("D:\output.pdf", "rb"))
  # Iterate pages
  for i in range(0, pdf.getNumPages()):
    # Extract text from page and add to content
    #content += pdf.getPage(i).extractText() + "\n"
    print pdf.getPage(i).extractText().encode("ascii", "ignore")

  # Collapse whitespace
  #content = " ".join(content.replace(u"\xa0", " ").strip().split())
  #return content

  #getPDFContent().encode("ascii", "ignore")
  getPDFContent()

  s =getPDFContent()
  with open('D:\pdftxt.txt', 'w') as pdftxt:
      pdftxt.write(s)

我确实尝试过把 s 初始化为 str，但结果出现了一个错误，提示“不能给函数调用赋值”。

文件操作文本处理类型错误 pdf转换

1 个回答

你没有从 getPDFContent() 这个函数里返回任何东西，所以实际上你写的就是 None。

 result=[]
 for i in range(0, pdf.getNumPages()):
     result.append(pdf.getPage(i).extractText().encode("ascii", "ignore")) # store all in a list
 return result


 s = getPDFContent()
 with open('D:\pdftxt.txt', 'w') as pdftxt:
    pdftxt.writelines(s) # use writelines to write list content

你的代码应该是这样的：

def getPDFContent():
    # Load PDF into pyPDF
    pdf = pyPdf.PdfFileReader(file("D:\output.pdf", "rb"))
    # Iterate pages
    result = []
    for i in range(0, pdf.getNumPages()):
        result.append(pdf.getPage(i).extractText().encode("ascii", "ignore"))
    return result

s = getPDFContent()
with open('D:\pdftxt.txt', 'w') as pdftxt:
    pdftxt.writelines(s)

回答于 2025-04-18 由 Python大师

分享举报

类型错误：预期是字符缓冲对象

1 个回答

撰写回答