我需要以下格式的数据
(u'Melbourne', u'NP', u'B-LOC'),
(u'(', u'Fpa', u'O'),
(u'Australia', u'NP', u'B-LOC'),
(u')', u'Fpt', u'O'),
(u',', u'Fc', u'O'),
我有的只是txt文件,我需要这个数据的CRF模型为NER任务。
我打算用crfsuiteforpython,但不太明白如何标记训练数据。
我可以只是pos标记它,但如何添加命名实体,因为我需要用2个自定义标签标记训练数据。在
Tags:
Brat是一种很好的注释新数据集的方法。在注释之后,需要从Brat输出的Standoff格式转换为Stanford NER接受的格式。在
如果你想训练一个CRF模型,那么你需要带注释的数据;对于某些任务,可以依赖现有的语料库,但是如果你的任务是新的,那么你就必须自己注释实体。有一些工具可以帮助您,例如看一下http://brat.nlplab.org/。GATE还内置了注释工具。在
POS标记通常用作特性,但它们不是严格要求的(您还应该使用许多其他特性)。在
如果您想用不同的实体而不是}实体来创建自己的训练数据,那么您可以参考我的答案Is it possible to train Stanford NER system to recognize more named entities types?
Location
或{相关问题 更多 >
编程相关推荐