2024-04-28 21:22:02 发布
网友
我正在尝试使用python库NLTK进行自然语言处理。在
我的问题:我正在尝试执行词干分析;将单词简化为其标准化形式。但它不能产生正确的词语。我正确地使用词干分析类吗?我怎样才能得到我想要的结果呢?在
我想将以下词语规范化:
words = ["forgot","forgotten","there's","myself","remuneration"]
…到这里来:
我的代码:
像adi92,我也相信你在寻找柠檬化。因为您使用的是NLTK,所以您可以使用它的WordNet interface。在
在单词级别有两种类型的规范化。在
词干提取-一种将单词转换成某种标记的快速而肮脏的方法,这种方法不能保证是一个实际的单词,但通常同一单词的不同形式应该映射到相同的词干标记
柠檬化-将一个词转换成某种基本形式(单数、现在时等),这些基本形式本身就是一个合法的词。这显然会更慢、更复杂,并且对于许多NLP任务通常不需要。
你好像在找柠檬酱而不是茎干器。在堆栈溢出中搜索“lemmatization”可以为您提供很多关于如何设置其中一个的线索。我玩过这个叫做morpha的游戏,发现它非常有用而且很酷。在
像adi92,我也相信你在寻找柠檬化。因为您使用的是NLTK,所以您可以使用它的WordNet interface。在
在单词级别有两种类型的规范化。在
词干提取-一种将单词转换成某种标记的快速而肮脏的方法,这种方法不能保证是一个实际的单词,但通常同一单词的不同形式应该映射到相同的词干标记
柠檬化-将一个词转换成某种基本形式(单数、现在时等),这些基本形式本身就是一个合法的词。这显然会更慢、更复杂,并且对于许多NLP任务通常不需要。
你好像在找柠檬酱而不是茎干器。在堆栈溢出中搜索“lemmatization”可以为您提供很多关于如何设置其中一个的线索。我玩过这个叫做morpha的游戏,发现它非常有用而且很酷。在
相关问题 更多 >
编程相关推荐