使用我自己的标记语料库进行NLTK词性标注？

2024-06-09 19:39:25 发布

您现在位置：Python中文网/ 问答频道 /正文

8238

网友

男 | 程序猿一只，喜欢编程写python代码。

我试图用NLTK为Dothraki语言编写一个基本的POS标记器。与Brown语料库类似，我有自己的.txt文件，其中包含单词及其相关词类。例如。。。在

Anha/PRP vidrik/VBP khalasares/NN anni/NN jim/NN

我想做的是将语料库加载到NLTK中，并能够看到单词旁边的词类，类似于Brown语料库的做法。所以这就是我要做的：

from nltk.corpus.reader import TaggedCorpusReader

corpus_root = '...'
dothraki_corpus_tagged = TaggedCorpusReader(corpus_root, ".*", ".txt")
print (dothraki_corpus_tagged.tagged_sents('dt01.txt'))

但我的结果是：

^{pr2}$

而不是

[[('Anha', 'PRP'), ('vidrik', 'VBP') ...]]

Tags： txt root corpus nn 单词语料库 nltk brown

1条回答

网友

1楼 · 发布于 2024-06-09 19:39:25

所以我现在觉得有点蠢，但是我只需从TaggedCorpusReader参数中删除“.*”就可以得到我想要的了。所以我现在得到的是：

dothraki_corpus_tagged = TaggedCorpusReader(corpus_root, ".txt")
print (dothraki_corpus_tagged.tagged_sents('dothraki_01.txt'))

使用我自己的标记语料库进行NLTK词性标注？

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用我自己的标记语料库进行NLTK词性标注？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >