擅长:python、mysql、java
<p>在单词级别有两种类型的规范化。在</p>
<ol>
<li><p>词干提取-一种将单词转换成某种标记的快速而肮脏的方法,这种方法不能保证是一个实际的单词,但通常同一单词的不同形式应该映射到相同的词干标记</p></li>
<li><p>柠檬化-将一个词转换成某种基本形式(单数、现在时等),这些基本形式本身就是一个合法的词。这显然会更慢、更复杂,并且对于许多NLP任务通常不需要。</p></li>
</ol>
<p>你好像在找柠檬酱而不是茎干器。在堆栈溢出中搜索“lemmatization”可以为您提供很多关于如何设置其中一个的线索。我玩过这个叫做<a href="http://www.informatics.sussex.ac.uk/research/groups/nlp/carroll/morph.html" rel="nofollow">morpha</a>的游戏,发现它非常有用而且很酷。在</p>