从简历中创建页面列表并获取第一页 - 问答 - Python中文网

从简历中创建页面列表并获取第一页

2024-04-26 00:19:54 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我的目标是根据职位描述对简历进行排名：

为此，我有以下任务：

从简历创建页面列表。你知道吗

如果有多份简历，我应该可以把它们分成几页。简历可以是文本、doc、docx、pdf或html格式？你知道吗

以下链接仅适用于pdf，并且仅在发生分页符时有效： PyPDF2 split pdf by pages

Tags：文本目标列表 by doc pdf 链接 html

1条回答

网友

1楼 · 发布于 2024-04-26 00:19:54

对于从不同的文件类型中提取文本，没有一种解决方案。尝试使用fitz包从pdf中提取文本：

def extractTextfrompdf(resume):
    try:
        temp = fitz.open("pdf", resume)
        pageCount = temp.pageCount
        resumeText = ["".join(temp.getPageText(i) for i in range(pageCount))][0]
        return resumeText, pageCount
    except (TypeError,ValueError):
        logger.exception("Text extraction from pdf failed.")
        pass

可以使用python docx从docx文件中提取文本。逻辑应该很相似。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章