我想为柠檬化结果附加一些例外。例如,当我测试wnl.lemmatize('cookies')
时,得到的结果是cooky
,而不是cookie
。如何将柠檬化结果更新为cookie
import nltk
from nltk.tokenize import word_tokenize
from nltk import pos_tag
from nltk.stem import WordNetLemmatizer
wnl = WordNetLemmatizer()
def text_cleaning(text):
text = text.lower()
tok_list = [wnl.lemmatize(w,tag[0].lower()) if tag[0].lower() in ['a','n','v'] else wnl.lemmatize(w) for w,tag in pos_tag(word_tokenize(text))]
return ' '.join(tok_list)
通过查看发现的实现here,您可能可以执行以下操作
但这只有在
1)你知道哪些词你想改/不改
这是一个小数目。这显然不具有可伸缩性
相关问题 更多 >
编程相关推荐