我正在清理我的data frame
,sumption中的一个列,并尝试做3件事:
删除停止语
import spacy
nlp = spacy.load('en_core_web_sm', parser=False, entity=False)
df['Tokens'] = df.Sumcription.apply(lambda x: nlp(x))
spacy_stopwords = spacy.lang.en.stop_words.STOP_WORDS
spacy_stopwords.add('attach')
df['Lema_Token'] = df.Tokens.apply(lambda x: " ".join([token.lemma_ for token in x if token not in spacy_stopwords]))
但是,例如,当我打印时:
^{pr2}$输出中仍有attach一词:
attach poster on the wall because it is cool
为什么不删除停止字?在
我也试过了:
df['Lema_Token_Test'] = df.Tokens.apply(lambda x: [token.lemma_ for token in x if token not in spacy_stopwords])
但是str attach
仍然出现。在
输出:
^{pr2}$相关问题 更多 >
编程相关推荐