2024-04-26 00:19:54 发布
网友
我的目标是根据职位描述对简历进行排名:
为此,我有以下任务:
从简历创建页面列表。你知道吗
如果有多份简历,我应该可以把它们分成几页。简历可以是文本、doc、docx、pdf或html格式?你知道吗
以下链接仅适用于pdf,并且仅在发生分页符时有效: PyPDF2 split pdf by pages
对于从不同的文件类型中提取文本,没有一种解决方案。尝试使用fitz包从pdf中提取文本:
def extractTextfrompdf(resume): try: temp = fitz.open("pdf", resume) pageCount = temp.pageCount resumeText = ["".join(temp.getPageText(i) for i in range(pageCount))][0] return resumeText, pageCount except (TypeError,ValueError): logger.exception("Text extraction from pdf failed.") pass
可以使用python docx从docx文件中提取文本。逻辑应该很相似。你知道吗
对于从不同的文件类型中提取文本,没有一种解决方案。尝试使用fitz包从pdf中提取文本:
可以使用python docx从docx文件中提取文本。逻辑应该很相似。你知道吗
相关问题 更多 >
编程相关推荐