我正在从简历数据库中构建一个模型,我只想从应聘者的简历中提取学位名称。我最初的方法是找到一个模式并提取与regex的匹配,但由于没有明显的模式,我的第二种方法是使用nlp,查看是否有任何标签与我想要的字符串匹配。我还考虑了是否制作了任何API或python库,其中包含了所有可能的学位名称,但没有成功。以下是一些字符串:
'bachelor of Computer Science Engineering University : Anna Un'
'master of Information Technology University : Deakin Univer'
'diploma in Management 2016 M.Sc. of Computer Science (“Diplo']
'master of Analytics Concentration: Data handling and manage'
'master of Engineering (Software) University of Melbourne 20'
'bachelor of B USINESS INFOR MATIO N SY STEM S – Monash Univer'
然而,我已经提取了前两个单词,并在硕士、学士和文凭中对它们进行了标准化,如果这有帮助的话,因为它们的格式不同,如硕士、硕士等。下面是数据的快照,以获得一些想法。谢谢
我使用Spacy库完成了这项工作。有两种方法,您可以查看spacy文档:
您可以选择上面的一个
相关问题 更多 >
编程相关推荐