我想用NLTK建立pos标记的语料库。这样我就可以根据它训练我的模型了。在
到目前为止,我参考了很多资料,但每一个都只是解释如何阅读你的标记语料库和阅读单词、句子等。下面是我尝试过的一段代码:
from nltk.corpus.reader import TaggedCorpusReader
reader = TaggedCorpusReader('/home/abc/nltk_data/', 'pos_tagged.pos')
reader.words()
reader.tagged_words()
reader.sents()
我想在home/nltk_data/corpora/
文件夹中包含我的语料库,这样我就可以导入我创建的语料库。
请引导我。在
我找到了解决方法: 请参考link了解分步程序。在
从here下载相同的必要文件。在
一旦您遵循来自1的命令,将生成pickle文件,这是您的标记语料库。在
生成pickle文件后,您可以通过运行以下代码来检查标记器是否正常工作:
相关问题 更多 >
编程相关推荐