我不知道如何扩展/重新培训现有模型。我不想从零开始训练我自己的标签,我只想根据我的需要改变现有的标签。比如说
tagger = PerceptronTagger(load=True)
tagger.train([[('restaurant','NN')]])
tokens = nltk.word_tokenize("Show me restaurant in Berlin")
tags = tagger.tag(tokens)
for i in tags:
print(i)
这当然是默认输出:
<'Show', 'VB'> <'me', 'PRP'> <'restaurant', 'VB'> <'in', 'IN'> <'Berlin', 'NNP'>
我所期望的是餐馆。 或者,小写的实体也有一个共同的问题,比如柏林、韩国等(将是:NN、JJ、NN)。有什么想法或建议吗
我建议tou只在小写单词上训练标记者,这样你就不会遇到像你所说的“berlin”和“berlin”这样的问题
我不知道
PerceptronTagger
是如何详细工作的,但我建议您这样做。为了在有新数据时重新训练模型,必须对“更新的”数据再次重复训练过程否则,如果标记器有某种内部字典,可能通过将单词与相对标记关联的
dict
,您可以尝试使用新数据更新它,在本例中为“<;”“餐厅”><;'NN'>相关问题 更多 >
编程相关推荐