如何利用CRFSui编写CRF模型训练语料库

2024-06-10 02:20:28 发布

您现在位置:Python中文网/ 问答频道 /正文

我需要以下格式的数据

(u'Melbourne', u'NP', u'B-LOC'),
 (u'(', u'Fpa', u'O'),
 (u'Australia', u'NP', u'B-LOC'),
 (u')', u'Fpt', u'O'),
 (u',', u'Fc', u'O'),

我有的只是txt文件,我需要这个数据的CRF模型为NER任务。 我打算用crfsuiteforpython,但不太明白如何标记训练数据。 我可以只是pos标记它,但如何添加命名实体,因为我需要用2个自定义标签标记训练数据。在


Tags: 文件数据标记模型txt格式nploc
3条回答

Brat是一种很好的注释新数据集的方法。在注释之后,需要从Brat输出的Standoff格式转换为Stanford NER接受的格式。在

如果你想训练一个CRF模型,那么你需要带注释的数据;对于某些任务,可以依赖现有的语料库,但是如果你的任务是新的,那么你就必须自己注释实体。有一些工具可以帮助您,例如看一下http://brat.nlplab.org/GATE还内置了注释工具。在

POS标记通常用作特性,但它们不是严格要求的(您还应该使用许多其他特性)。在

如果您想用不同的实体而不是Location或{}实体来创建自己的训练数据,那么您可以参考我的答案Is it possible to train Stanford NER system to recognize more named entities types?

相关问题 更多 >