如何在路径中遍历PDF文件、格式化和清理每个文件，并从单个文件中吐出带有特定文本的regex？

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.converter import HTMLConverter from pdfminer.converter import TextConverter from pdfminer.layout import LAParams from pdfminer.pdfpage import PDFPage from bs4 import BeautifulSoup from cStringIO import StringIO from pandas import DataFrame import pandas as pd import glob import re path = r'F:\Desktop\Metadata\' allFiles = glob.glob(path + "/*.pdf") for file_ in allFiles: convert_pdf_to_html(file_) def convert_pdf_to_html(path): rsrcmgr = PDFResourceManager() retstr = StringIO() codec = 'utf-8' laparams = LAParams() device = HTMLConverter(rsrcmgr, retstr, codec = codec, laparams = laparams) fp = file(path, 'rb') interpreter = PDFPageInterpreter(rsrcmgr, device) password = "" maxpages = 0 caching = True pagenos = set() for page in PDFPage.get_pages(fp, pagenos, maxpages = maxpages, password = password, caching = caching, check_extractable = True): interpreter.process_page(page) fp.close() device.close() str = retstr.getvalue() retstr.close() return str

1条回答

网友

1楼 · 发布于 2024-04-20 05:21:39

好的方法是创建一个类，该类可以处理发送给该类的每个文件实例的每个函数。你知道吗

Class PDFParser:
    file = ''
    def __init__(self, myfile):
          file = myfile

    def get_html_response(self):
        //your code for pdf to html

    def run_regx(self):
        //run your regex here.

for file_ in allFiles:
    my_parse = PDFParser(file_)
    my_parse.get_html_response()
    my_parse.run_regx()

相关问题更多 >

编程相关推荐

热门问题

热门文章