CESS_ESP 标签的定义

3 投票
1 回答
2073 浏览
提问于 2025-04-18 16:56

我正在使用NLTK的CESS ESP数据包,并且我已经能够使用spaghetti tagger的一个改编版本和一个HiddenMarkovModelTagger来给句子加标签。不过,它生成的标签和用来标记美式英语(en_US)句子的标签完全不一样。你可以查看NLTK的分类和标记文档,你会注意到使用的标签都是大写的,而且没有数字或标点符号,一些CESS标签是:vsip3s0da0fs0

有没有人知道哪里可以找到解释这些标签的参考资料?

句子

¿Que es la programación orientada a objetos?

Spaghetti Tagger

[('\xc2\xbfQue', None), ('es', 'vsip3s0'), ('la', 'da0fs0'), ('programaci\xc3\xb3n', None), ('orientada', 'aq0fsp'), ('a', 'sps00'), ('objetos', 'ncmp000'), ('?', 'Fit')]
[('\xc2\xbfQue', None), ('es', None), ('la', None), ('programaci\xc3\xb3n', None), ('orientada', None), ('a', None), ('objetos', None), ('?', None)]
[('\xc2\xbfQue', None), ('es', 'vsip3s0'), ('la', 'da0fs0'), ('programaci\xc3\xb3n', None), ('orientada', 'aq0fsp'), ('a', 'sps00'), ('objetos', 'ncmp000'), ('?', 'Fit')]
[('\xc2\xbfQue', None), ('es', 'vsip3s0'), ('la', 'da0fs0'), ('programaci\xc3\xb3n', None), ('orientada', 'aq0fsp'), ('a', 'sps00'), ('objetos', 'ncmp000'), ('?', 'Fit')]

Markov Tagger

[('\xc2\xbfQue', 'sn.e-SUJ'), ('es', 'vsip3s0'), ('la', 'da0fs0'), ('programaci\xc3\xb3n', 'ncfs000'), ('orientada', 'aq0fsp'), ('a', 'sps00'), ('objetos', 'ncmp000'), ('?', 'Fit')]

1 个回答

4

cess-esp 这个语料库是用一个叫EAGLE的老旧标注系统进行标注的,你可以在这里查看相关信息。希望这对你有帮助。

撰写回答