如何从难以找到模式的字符串列表中提取令牌

2024-06-07 12:58:02 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在从简历数据库中构建一个模型,我只想从应聘者的简历中提取学位名称。我最初的方法是找到一个模式并提取与regex的匹配,但由于没有明显的模式,我的第二种方法是使用nlp,查看是否有任何标签与我想要的字符串匹配。我还考虑了是否制作了任何API或python库,其中包含了所有可能的学位名称,但没有成功。以下是一些字符串:

'bachelor of Computer Science Engineering University : Anna Un'
'master of Information Technology University : Deakin Univer'
'diploma in Management 2016 M.Sc. of Computer Science (“Diplo']
'master of Analytics Concentration: Data handling and manage'
'master of Engineering (Software) University of Melbourne 20'
'bachelor of B USINESS INFOR MATIO N SY STEM S – Monash Univer'

然而,我已经提取了前两个单词,并在硕士、学士和文凭中对它们进行了标准化,如果这有帮助的话,因为它们的格式不同,如硕士、硕士等。下面是数据的快照,以获得一些想法。谢谢 enter image description here


Tags: of方法字符串master名称数据库模式computer
1条回答
网友
1楼 · 发布于 2024-06-07 12:58:02

我使用Spacy库完成了这项工作。有两种方法,您可以查看spacy文档:

  1. 基于规则(基于模式)
  2. 为您的特定用例定制NER培训

您可以选择上面的一个

相关问题 更多 >

    热门问题