预训练spacy模型或spacy.blank,用于定制NER,哪种方法正确?

2024-05-14 09:34:39 发布

您现在位置:Python中文网/ 问答频道 /正文

我想要一个spacy定制的NER模型,哪一个是最好的选择

列车数据准备就绪(doccano)

备选案文1。使用现有的预先训练过的spacy模型,并使用自定义的NER?对其进行更新

备选案文2。使用spacy.blank()和自定义NER创建空模型

我只想在文本中标识我的自定义实体,其他类型的实体目前不需要


Tags: 数据模型文本实体类型spacy标识blank
1条回答
网友
1楼 · 发布于 2024-05-14 09:34:39

您希望尽可能地利用transfer learning:这意味着您很可能希望使用预先训练好的模型(例如,在维基百科数据上),并根据您的用例对其进行微调。这是因为从头开始训练spacy.blank模型将需要大量数据,而微调预训练模型可能只需要几百个标签

但是,请注意catastrophic forgetting,这是一个事实,即在微调一些新标签时,模型可能会“忘记”一些旧标签,因为它们不再存在于训练集中

例如,假设您试图在预先训练的NER模型上标记实体DOCTOR,该模型标记LOCPERSONORG。您可以为200份医生记录贴上标签,并使用它们微调您的模型。您可能会发现该模型现在将每个PERSON预测为DOCTOR

在不了解更多数据的情况下,这就是所有人可以说的。请查看spacy docs on training ner了解更多详细信息

相关问题 更多 >

    热门问题