一个简单的简历分析器,用于从简历中提取信息

pyresparser的Python项目详细描述


除虫菊酯

一个简单的简历分析器,用于从简历中提取信息

功能

  • 摘录名称
  • 提取电子邮件
  • 提取手机号码
  • 提取技能
  • 提取总经验
  • 摘录教育(目前还不是很准确)
  • 提取经验(目前还不是很准确)

安装

  • 您可以使用
pip install pyresparser
  • 对于NLP操作,我们使用spacy和nltk使用下面的安装 命令:
# spaCy
python -m spacy download en_core_web_sm

# nltk
python -m nltk.downloader words
  • 要提取其他支持依赖项,请执行:
# If you want to parse .docx and .pdf files (all OS supported)
pip install -r resume_parser/requirements.txt

# If you want to parse .docx, .doc and .pdf files (Ubuntu and OSX supported)
pip install -r resume_parser/requirements_with_textract.txt

支持的文件格式

  • 所有操作系统都支持PDF和DOCx文件
  • 如果要提取文档文件,可以安装 textract 对于您的操作系统(Linux、MacOS)
  • 注意:您只需安装textract(和其他任何东西)和doc 文件很容易被解析

cli

为了运行resume提取器,您还可以使用提供的cli

usage: pyresparser [-h][-f FILE][-d DIRECTORY]

optional arguments:
  -h, --help                              show this help message and exit
  -f FILE, --file FILE                    resume file to be extracted
  -d DIRECTORY, --directory DIRECTORY     directory containing all the resumes to be extracted
  -r REMOTEFILE, --remotefile REMOTEFILE  remote path for resume file to be extracted

要从单个简历文件中提取数据,请使用

pyresparser -f <resume_file_path>

要从多份简历中提取数据,请将它们放在目录中,然后 然后执行

pyresparser -d <resume_directory_path>

要从远程简历中提取数据,请执行

pyresparser -r <path_to_remote_resume_file>

注:

  • 如果在windows上运行应用程序,则只能提取 .docs和.pdf文件

结果

模块将返回字典对象列表,结果为 如下:

[{'education': [('BE', '2014')],
  'email': 'omkarpathak27@gmail.com',
  'experience': [' Schlumberger DATA ENGINEER Pune'],
  'mobile_number': '8087996634',
  'name': 'Omkar Pathak',
  'no_of_pages': 3,
  'skills': ['Python',
             'C',
             'Technical',
             'Linux',
             'Machine learning',
             'System',
             'Html',
             'C++',
             'Security',
             'Testing',
             'Content',
             'Apis',
             'Engineering',
             'Payments',
             'Django',
             'Excel',
             'Admissions',
             'Mysql',
             'Windows',
             'Automation',
             'Opencv',
             'Website',
             'Css',
             'Js',
             'Algorithms',
             'Flask',
             'Programming',
             'Writing',
             'Training',
             'Php',
             'Reports',
             'Photography',
             'Open source',
             'Github',
             'Analytics',
             'Api'],
  'total_experience': 0.58}]

捐赠

如果你发现我的软件对你有用,请考虑 帮我付网络账单这会鼓励我创造很多 这些软件:)

PayPal
₹ (INR)

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java关闭域实例   java如何获得JTable列的头组件的最小首选宽度,以便其大小不能小于该值?   使用时使用java Jsoup。孩子们()。跳出边界性感觉   类静态初始化块内的java类用法   java ParseCrashReporting*。在其Android SDK的1.11.0中找不到jar   javahsqldb组织。springframework。刀。复杂选择上的TransientDataAccessResourceException   java EJB 3.1@SessionScoped Bean holding登录信息注销问题   java如何跟踪重复警报何时关闭并更新设置值?   具有可变参数类型的java接口方法   使用openstack4j计算查询的java连接超时   java这是一种双向的一对一关系吗?   java如何重置EventStream中的最后一个累积值?   java如何在超级抽象类中使用@Bean?   使用多部分上传java图像   java列出了已解析的SQL SELECT语句的所有表/列   java使用内部类实现单元测试类的正确方法   使用AWS API网关的java ContentType飞行前处理与自己的Rest服务器   调用dispose()后重新创建JinternalFrame对象   字符编码通过java编写一个以UTF8编码的文本文件,其中包含BOM表。尼奥