执行词干输出时不连贯的单词 - 问答 - Python中文网

执行词干输出时不连贯的单词

2024-05-28 19:31:57 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我正在尝试使用python库NLTK进行自然语言处理。在

我的问题：我正在尝试执行词干分析；将单词简化为其标准化形式。但它不能产生正确的词语。我正确地使用词干分析类吗？我怎样才能得到我想要的结果呢？在

我想将以下词语规范化：

words = ["forgot","forgotten","there's","myself","remuneration"]

…到这里来：

^{pr2}$

我的代码：

^{3}$

Tags：代码规范化单词形式 there words nltk 词干

2条回答

网友

1楼 · 编辑于 2024-05-28 19:31:57

像adi92，我也相信你在寻找柠檬化。因为您使用的是NLTK，所以您可以使用它的WordNet interface。在

网友

2楼 · 编辑于 2024-05-28 19:31:57

在单词级别有两种类型的规范化。在

词干提取-一种将单词转换成某种标记的快速而肮脏的方法，这种方法不能保证是一个实际的单词，但通常同一单词的不同形式应该映射到相同的词干标记
柠檬化-将一个词转换成某种基本形式（单数、现在时等），这些基本形式本身就是一个合法的词。这显然会更慢、更复杂，并且对于许多NLP任务通常不需要。

你好像在找柠檬酱而不是茎干器。在堆栈溢出中搜索“lemmatization”可以为您提供很多关于如何设置其中一个的线索。我玩过这个叫做morpha的游戏，发现它非常有用而且很酷。在

相关问题更多 >

编程相关推荐

热门问题

热门文章