执行词干输出时不连贯的单词

2024-04-28 21:22:02 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试使用python库NLTK进行自然语言处理。在

我的问题:我正在尝试执行词干分析;将单词简化为其标准化形式。但它不能产生正确的词语。我正确地使用词干分析类吗?我怎样才能得到我想要的结果呢?在

我想将以下词语规范化:

words = ["forgot","forgotten","there's","myself","remuneration"]

…到这里来:

^{pr2}$

我的代码:

^{3}$

Tags: 代码规范化单词形式therewordsnltk词干
2条回答

像adi92,我也相信你在寻找柠檬化。因为您使用的是NLTK,所以您可以使用它的WordNet interface。在

在单词级别有两种类型的规范化。在

  1. 词干提取-一种将单词转换成某种标记的快速而肮脏的方法,这种方法不能保证是一个实际的单词,但通常同一单词的不同形式应该映射到相同的词干标记

  2. 柠檬化-将一个词转换成某种基本形式(单数、现在时等),这些基本形式本身就是一个合法的词。这显然会更慢、更复杂,并且对于许多NLP任务通常不需要。

你好像在找柠檬酱而不是茎干器。在堆栈溢出中搜索“lemmatization”可以为您提供很多关于如何设置其中一个的线索。我玩过这个叫做morpha的游戏,发现它非常有用而且很酷。在

相关问题 更多 >