使用Python从个人地名词典进行命名实体识别
我在用Python的NLTK库做命名实体识别。
我想提取个人的技能列表。
我已经有了技能的列表,想在招聘信息中搜索这些技能并给它们打标签。
我注意到NLTK有一些预定义的标签,比如人名、地点等。
请问在Python中有没有其他的外部工具可以用来标记这些技能?
有没有什么更高级的方法,而不仅仅是搜索单个词(有时候是多个词的组合)?
谢谢,
Assaf
2 个回答
1
你可以看看 RegexpTagger 和 RegexpParser,我觉得这正是你需要的东西。
你可以自己创建词性标签,也就是说把技能和标签对应起来,然后很容易地定义语法规则。
关于标签器的一些示例代码可以在 这个pdf里找到。
1
我最近没怎么用过NLTK,但如果你知道哪些词是技能的话,其实不需要做命名实体识别(NER),只要简单地搜索文本就可以了。
你可以试试用Lucene或者其他搜索库来找到这些文本,然后再给它们加上标注?这会比较麻烦,但如果你处理的数据量很大,这样做可能还不错。或者,你也可以用正则表达式来搜索,这样速度会慢一些,但对于小量数据来说,应该能正常工作,而且实现起来会简单很多。