CESS_ESP 标签的定义
我正在使用NLTK的CESS ESP数据包,并且我已经能够使用spaghetti tagger的一个改编版本和一个HiddenMarkovModelTagger
来给句子加标签。不过,它生成的标签和用来标记美式英语(en_US)句子的标签完全不一样。你可以查看NLTK的分类和标记文档,你会注意到使用的标签都是大写的,而且没有数字或标点符号,一些CESS标签是:vsip3s0
,da0fs0
。
有没有人知道哪里可以找到解释这些标签的参考资料?
句子
¿Que es la programación orientada a objetos?
Spaghetti Tagger
[('\xc2\xbfQue', None), ('es', 'vsip3s0'), ('la', 'da0fs0'), ('programaci\xc3\xb3n', None), ('orientada', 'aq0fsp'), ('a', 'sps00'), ('objetos', 'ncmp000'), ('?', 'Fit')]
[('\xc2\xbfQue', None), ('es', None), ('la', None), ('programaci\xc3\xb3n', None), ('orientada', None), ('a', None), ('objetos', None), ('?', None)]
[('\xc2\xbfQue', None), ('es', 'vsip3s0'), ('la', 'da0fs0'), ('programaci\xc3\xb3n', None), ('orientada', 'aq0fsp'), ('a', 'sps00'), ('objetos', 'ncmp000'), ('?', 'Fit')]
[('\xc2\xbfQue', None), ('es', 'vsip3s0'), ('la', 'da0fs0'), ('programaci\xc3\xb3n', None), ('orientada', 'aq0fsp'), ('a', 'sps00'), ('objetos', 'ncmp000'), ('?', 'Fit')]
Markov Tagger
[('\xc2\xbfQue', 'sn.e-SUJ'), ('es', 'vsip3s0'), ('la', 'da0fs0'), ('programaci\xc3\xb3n', 'ncfs000'), ('orientada', 'aq0fsp'), ('a', 'sps00'), ('objetos', 'ncmp000'), ('?', 'Fit')]