PDF提取中的空白和奇怪的单词解释

import pyPdf def get_text(path): # Load PDF into pyPDF pdf = pyPdf.PdfFileReader(file(path, "rb")) # Iterate pages content = "" for i in range(0, pdf.getNumPages()): content += pdf.getPage(i).extractText() + "\n" # Extract text from page and add to content # Collapse whitespace content = " ".join(content.replace(u"\xa0", " ").strip().split()) return content

3条回答

网友

1楼 · 编辑于 2024-05-21 08:09:11

作为PyPDF2的替代方案，我建议pdftotext：

#!/usr/bin/env python

"""Use pdftotext to extract text from PDFs."""

import pdftotext

with open("foobar.pdf") as f:
    pdf = pdftotext.PDF(f)

# Iterate over all the pages
for page in pdf:
    print(page)

网友

2楼 · 编辑于 2024-05-21 08:09:11

不使用PyPdf2，使用Pdfminer库包，该包与下面的功能相同。我从this那里得到了代码，按照我的要求我对它进行了编辑，这段代码给了我一个文本文件，其中的单词之间有空白。我和anaconda和python 3.6一起工作。对于安装Python3.6的PdfMiner，可以使用这个link。

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO

class PdfConverter:

   def __init__(self, file_path):
       self.file_path = file_path
# convert pdf file to a string which has space among words 
   def convert_pdf_to_txt(self):
       rsrcmgr = PDFResourceManager()
       retstr = StringIO()
       codec = 'utf-8'  # 'utf16','utf-8'
       laparams = LAParams()
       device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
       fp = open(self.file_path, 'rb')
       interpreter = PDFPageInterpreter(rsrcmgr, device)
       password = ""
       maxpages = 0
       caching = True
       pagenos = set()
       for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password, caching=caching, check_extractable=True):
           interpreter.process_page(page)
       fp.close()
       device.close()
       str = retstr.getvalue()
       retstr.close()
       return str
# convert pdf file text to string and save as a text_pdf.txt file
   def save_convert_pdf_to_txt(self):
       content = self.convert_pdf_to_txt()
       txt_pdf = open('text_pdf.txt', 'wb')
       txt_pdf.write(content.encode('utf-8'))
       txt_pdf.close()
if __name__ == '__main__':
    pdfConverter = PdfConverter(file_path='sample.pdf')
    print(pdfConverter.convert_pdf_to_txt())

网友

3楼 · 编辑于 2024-05-21 08:09:11

PDF文件没有可打印的空格字符，它只是将单词放置在需要的位置。您需要做额外的工作来计算空格，可能是假设多个字符的运行是单词，并在它们之间放置空格。

如果您可以在PDF阅读器中选择文本，并使空格正确显示，那么至少您知道有足够的信息来重建文本。

“fi”是一个排版连字，显示为单个字符。你可能会发现这也发生在“fl”、“ffi”和“ffl”上。您可以使用字符串替换用“fi”替换fi连字。

相关问题更多 >

编程相关推荐

热门问题

热门文章