2024-05-15 15:00:35 发布
网友
我是一个尝试学习NLP的新手,我想更好地理解命名实体识别(NER)在实践中是如何实现的,例如在流行的python库中,比如spaCy。在
我理解它背后的基本概念,但我怀疑我遗漏了一些细节。 从文档中,我不清楚例如对文本和注释数据进行了多少预处理;使用了什么统计模型。在
你知道如果:
很抱歉,如果这些都是琐碎的,我有一些困难,找到容易阅读的文件内尔实现。在
在https://spacy.io/models/en#en_core_web_md中,他们说English multi-task CNN trained on OntoNotes。所以我想他们就是这样得到NEs的。你可以看到管道是
English multi-task CNN trained on OntoNotes
标签,解析器,内尔
阅读更多信息:https://spacy.io/usage/processing-pipelines。我会尝试移除不同的组件,看看会发生什么。这样你就能知道什么取决于什么。我很确定NER依赖于tager,但不确定是否需要解析器。当然,所有这些都需要标记器
我不明白你的第二点。如果一个实体在句子的开头或中间就可以了,NER系统应该能够捕捉到它。我看不出你是如何在文本上下文中使用normalize这个词的。在
normalize
关于模式,他们提到多任务CNN,所以我想CNN是NER的模型。有时人们会在上面加一个CRF,但他们并没有提到,所以很可能只是这样。从他们的表现来看,已经足够好了
在https://spacy.io/models/en#en_core_web_md中,他们说
English multi-task CNN trained on OntoNotes
。所以我想他们就是这样得到NEs的。你可以看到管道是标签,解析器,内尔
阅读更多信息:https://spacy.io/usage/processing-pipelines。我会尝试移除不同的组件,看看会发生什么。这样你就能知道什么取决于什么。我很确定NER依赖于tager,但不确定是否需要解析器。当然,所有这些都需要标记器
我不明白你的第二点。如果一个实体在句子的开头或中间就可以了,NER系统应该能够捕捉到它。我看不出你是如何在文本上下文中使用
normalize
这个词的。在关于模式,他们提到多任务CNN,所以我想CNN是NER的模型。有时人们会在上面加一个CRF,但他们并没有提到,所以很可能只是这样。从他们的表现来看,已经足够好了
相关问题 更多 >
编程相关推荐