使用我自己的标记语料库进行NLTK词性标注?

2024-06-09 19:39:25 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图用NLTK为Dothraki语言编写一个基本的POS标记器。与Brown语料库类似,我有自己的.txt文件,其中包含单词及其相关词类。例如。。。在

Anha/PRP vidrik/VBP khalasares/NN anni/NN jim/NN

我想做的是将语料库加载到NLTK中,并能够看到单词旁边的词类,类似于Brown语料库的做法。所以这就是我要做的:

from nltk.corpus.reader import TaggedCorpusReader

corpus_root = '...'
dothraki_corpus_tagged = TaggedCorpusReader(corpus_root, ".*", ".txt")
print (dothraki_corpus_tagged.tagged_sents('dt01.txt'))

但我的结果是:

^{pr2}$

而不是

[[('Anha', 'PRP'), ('vidrik', 'VBP') ...]]

Tags: txtrootcorpusnn单词语料库nltkbrown
1条回答
网友
1楼 · 发布于 2024-06-09 19:39:25

所以我现在觉得有点蠢,但是我只需从TaggedCorpusReader参数中删除“.*”就可以得到我想要的了。所以我现在得到的是:

dothraki_corpus_tagged = TaggedCorpusReader(corpus_root, ".txt")
print (dothraki_corpus_tagged.tagged_sents('dothraki_01.txt'))

相关问题 更多 >