使用Python从个人地名词典进行命名实体识别

4 投票
2 回答
2312 浏览
提问于 2025-04-16 12:20

我在用Python的NLTK库做命名实体识别。
我想提取个人的技能列表。
我已经有了技能的列表,想在招聘信息中搜索这些技能并给它们打标签。
我注意到NLTK有一些预定义的标签,比如人名、地点等。
请问在Python中有没有其他的外部工具可以用来标记这些技能?
有没有什么更高级的方法,而不仅仅是搜索单个词(有时候是多个词的组合)?

谢谢,
Assaf

2 个回答

1

你可以看看 RegexpTaggerRegexpParser,我觉得这正是你需要的东西。

你可以自己创建词性标签,也就是说把技能和标签对应起来,然后很容易地定义语法规则。

关于标签器的一些示例代码可以在 这个pdf里找到

1

我最近没怎么用过NLTK,但如果你知道哪些词是技能的话,其实不需要做命名实体识别(NER),只要简单地搜索文本就可以了。

你可以试试用Lucene或者其他搜索库来找到这些文本,然后再给它们加上标注?这会比较麻烦,但如果你处理的数据量很大,这样做可能还不错。或者,你也可以用正则表达式来搜索,这样速度会慢一些,但对于小量数据来说,应该能正常工作,而且实现起来会简单很多。

撰写回答