我们应该在什么时候在文本预处理管道中执行拼写更正?

2022-12-01 04:55:15 发布

您现在位置:Python中文网/ 问答频道 /正文

纠正单词拼写的步骤是否必须在词汇规范化(即词干、柠檬化)之前或之后完成?如果我们在词汇规范化之后这样做,那么如果我们进行柠檬化(通过传递词性标记,即单词的词性标记作为参数),那么词汇规范化之后的拼写检查就没有任何用处了,对吗


Tags: 标记参数步骤规范化单词词汇用处柠檬词性词干
1条回答
网友
1楼 · 发布于 2022-12-01 04:55:15

你应该先改正拼写。柠檬化是在一些语料库上训练的,但由于我介绍了一些不属于该语料库的东西,它可能不起作用。见下文:

# import these modules 
from nltk.stem import WordNetLemmatizer 
  
lemmatizer = WordNetLemmatizer() 
  
print("changing :", lemmatizer.lemmatize("changing", pos ="v")) 
print("change :", lemmatizer.lemmatize("change")) 
print("changer :", lemmatizer.lemmatize("changer")) 
  
# # a denotes adjective in "pos" 
print("changing :", lemmatizer.lemmatize("changyng", pos ="v")) 

changing : change #<     
change : change
changer : changer
changing : changyng #<   -

看,我刚刚更改了更改为changyng的拼写,但它无法执行柠檬化