如何利用CRFSui编写CRF模型训练语料库 - 问答 - Python中文网

如何利用CRFSui编写CRF模型训练语料库

2024-06-10 02:20:28 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我需要以下格式的数据

(u'Melbourne', u'NP', u'B-LOC'),
 (u'(', u'Fpa', u'O'),
 (u'Australia', u'NP', u'B-LOC'),
 (u')', u'Fpt', u'O'),
 (u',', u'Fc', u'O'),

我有的只是txt文件，我需要这个数据的CRF模型为NER任务。我打算用crfsuiteforpython，但不太明白如何标记训练数据。我可以只是pos标记它，但如何添加命名实体，因为我需要用2个自定义标签标记训练数据。在

Tags：文件数据标记模型 txt 格式 np loc

3条回答

网友

1楼 · 编辑于 2024-06-10 02:20:28

Brat是一种很好的注释新数据集的方法。在注释之后，需要从Brat输出的Standoff格式转换为Stanford NER接受的格式。在

网友

2楼 · 编辑于 2024-06-10 02:20:28

如果你想训练一个CRF模型，那么你需要带注释的数据；对于某些任务，可以依赖现有的语料库，但是如果你的任务是新的，那么你就必须自己注释实体。有一些工具可以帮助您，例如看一下http://brat.nlplab.org/。GATE还内置了注释工具。在

POS标记通常用作特性，但它们不是严格要求的（您还应该使用许多其他特性）。在

网友

3楼 · 编辑于 2024-06-10 02:20:28

如果您想用不同的实体而不是Location或{}实体来创建自己的训练数据，那么您可以参考我的答案Is it possible to train Stanford NER system to recognize more named entities types?

相关问题更多 >

编程相关推荐

热门问题

热门文章