我试图用NLTK为Dothraki语言编写一个基本的POS标记器。与Brown语料库类似,我有自己的.txt文件,其中包含单词及其相关词类。例如。。。在
Anha/PRP vidrik/VBP khalasares/NN anni/NN jim/NN
我想做的是将语料库加载到NLTK中,并能够看到单词旁边的词类,类似于Brown语料库的做法。所以这就是我要做的:
from nltk.corpus.reader import TaggedCorpusReader
corpus_root = '...'
dothraki_corpus_tagged = TaggedCorpusReader(corpus_root, ".*", ".txt")
print (dothraki_corpus_tagged.tagged_sents('dt01.txt'))
但我的结果是:
^{pr2}$而不是
[[('Anha', 'PRP'), ('vidrik', 'VBP') ...]]
所以我现在觉得有点蠢,但是我只需从TaggedCorpusReader参数中删除“.*”就可以得到我想要的了。所以我现在得到的是:
相关问题 更多 >
编程相关推荐