训练默认感知器

2024-04-25 20:30:49 发布

您现在位置:Python中文网/ 问答频道 /正文

我不知道如何扩展/重新培训现有模型。我不想从零开始训练我自己的标签,我只想根据我的需要改变现有的标签。比如说

tagger = PerceptronTagger(load=True) 
tagger.train([[('restaurant','NN')]])

tokens = nltk.word_tokenize("Show me restaurant in Berlin")
tags = tagger.tag(tokens)

for i in tags:
    print(i)

这当然是默认输出:

<'Show', 'VB'> <'me', 'PRP'> <'restaurant', 'VB'> <'in', 'IN'> <'Berlin', 'NNP'>

我所期望的是餐馆。 或者,小写的实体也有一个共同的问题,比如柏林、韩国等(将是:NN、JJ、NN)。有什么想法或建议吗


Tags: in模型trueshowtagsloadnn标签
1条回答
网友
1楼 · 发布于 2024-04-25 20:30:49

我建议tou只在小写单词上训练标记者,这样你就不会遇到像你所说的“berlin”和“berlin”这样的问题

我不知道PerceptronTagger是如何详细工作的,但我建议您这样做。为了在有新数据时重新训练模型,必须对“更新的”数据再次重复训练过程

否则,如果标记器有某种内部字典,可能通过将单词与相对标记关联的dict,您可以尝试使用新数据更新它,在本例中为“<;”“餐厅”><;'NN'>

相关问题 更多 >