从简历中创建页面列表并获取第一页

2024-04-26 00:19:54 发布

您现在位置:Python中文网/ 问答频道 /正文

我的目标是根据职位描述对简历进行排名:

为此,我有以下任务:

从简历创建页面列表。你知道吗

如果有多份简历,我应该可以把它们分成几页。简历可以是文本、doc、docx、pdf或html格式?你知道吗

以下链接仅适用于pdf,并且仅在发生分页符时有效: PyPDF2 split pdf by pages


Tags: 文本目标列表bydocpdf链接html
1条回答
网友
1楼 · 发布于 2024-04-26 00:19:54

对于从不同的文件类型中提取文本,没有一种解决方案。尝试使用fitz包从pdf中提取文本:

def extractTextfrompdf(resume):
    try:
        temp = fitz.open("pdf", resume)
        pageCount = temp.pageCount
        resumeText = ["".join(temp.getPageText(i) for i in range(pageCount))][0]
        return resumeText, pageCount
    except (TypeError,ValueError):
        logger.exception("Text extraction from pdf failed.")
        pass

可以使用python docx从docx文件中提取文本。逻辑应该很相似。你知道吗

相关问题 更多 >