一个简单的简历分析器,用于从简历中提取信息

pyresparser的Python项目详细描述


除虫菊酯

一个简单的简历分析器,用于从简历中提取信息

功能

  • 摘录名称
  • 提取电子邮件
  • 提取手机号码
  • 提取技能
  • 提取总经验
  • 摘录教育(目前还不是很准确)
  • 提取经验(目前还不是很准确)

安装

  • 您可以使用
pip install pyresparser
  • 对于NLP操作,我们使用spacy和nltk使用下面的安装 命令:
# spaCy
python -m spacy download en_core_web_sm

# nltk
python -m nltk.downloader words
  • 要提取其他支持依赖项,请执行:
# If you want to parse .docx and .pdf files (all OS supported)
pip install -r resume_parser/requirements.txt

# If you want to parse .docx, .doc and .pdf files (Ubuntu and OSX supported)
pip install -r resume_parser/requirements_with_textract.txt

支持的文件格式

  • 所有操作系统都支持PDF和DOCx文件
  • 如果要提取文档文件,可以安装 textract 对于您的操作系统(Linux、MacOS)
  • 注意:您只需安装textract(和其他任何东西)和doc 文件很容易被解析

cli

为了运行resume提取器,您还可以使用提供的cli

usage: pyresparser [-h][-f FILE][-d DIRECTORY]

optional arguments:
  -h, --help                              show this help message and exit
  -f FILE, --file FILE                    resume file to be extracted
  -d DIRECTORY, --directory DIRECTORY     directory containing all the resumes to be extracted
  -r REMOTEFILE, --remotefile REMOTEFILE  remote path for resume file to be extracted

要从单个简历文件中提取数据,请使用

pyresparser -f <resume_file_path>

要从多份简历中提取数据,请将它们放在目录中,然后 然后执行

pyresparser -d <resume_directory_path>

要从远程简历中提取数据,请执行

pyresparser -r <path_to_remote_resume_file>

注:

  • 如果在windows上运行应用程序,则只能提取 .docs和.pdf文件

结果

模块将返回字典对象列表,结果为 如下:

[{'education': [('BE', '2014')],
  'email': 'omkarpathak27@gmail.com',
  'experience': [' Schlumberger DATA ENGINEER Pune'],
  'mobile_number': '8087996634',
  'name': 'Omkar Pathak',
  'no_of_pages': 3,
  'skills': ['Python',
             'C',
             'Technical',
             'Linux',
             'Machine learning',
             'System',
             'Html',
             'C++',
             'Security',
             'Testing',
             'Content',
             'Apis',
             'Engineering',
             'Payments',
             'Django',
             'Excel',
             'Admissions',
             'Mysql',
             'Windows',
             'Automation',
             'Opencv',
             'Website',
             'Css',
             'Js',
             'Algorithms',
             'Flask',
             'Programming',
             'Writing',
             'Training',
             'Php',
             'Reports',
             'Photography',
             'Open source',
             'Github',
             'Analytics',
             'Api'],
  'total_experience': 0.58}]

捐赠

如果你发现我的软件对你有用,请考虑 帮我付网络账单这会鼓励我创造很多 这些软件:)

PayPal
₹ (INR)

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
JBossJava进程内存持续增长   Java postincrement(++)在作为参数传递时表现不符合预期   TableView列的java编辑值   java根据springboot@Scheduled注释使用的条件动态修改调度程序计时   java无法将jsp表单值设置为类变量   java ParseQuery from字段未保存   java为什么日历返回月份。是否获取(Calendar.MONTH)上个月而不是当前月?   java无法获取api密钥的md5指纹   java通用DAO和嵌套属性支持   javapomi的版本已经改变了。从OJDBC6到OJDBC8的xml。使用新版本OJDBC8执行某些查询时出现锁定问题   java IntelliJ颜色方案定制   java从第三方读取Linux存储库   amazon s3在AWS s3 Java SDK中设置对象元数据   java一对多映射比