在使用spaCy时，如何同时删除停止词和柠檬化？

1条回答

网友

1楼 · 发布于 2024-04-28 13:12:35

您只需检查token.lemma_是否存在于nlp.Defaults.stop_words中：

if token.lemma_.lower() not in nlp.Defaults.stop_words

例如：

df['text'] = df.sentence.progress_apply(
    lambda text: 
        " ".join(
            token.lemma_ for token in nlp(text)
                if token.lemma_.lower() not in nlp.Defaults.stop_words and token.is_alpha
        )
)

请参阅快速测试：

>>> import spacy
>>> nlp = spacy.load("en_core_web_sm")

>>> nlp.Defaults.stop_words.add("friend") # Adding "friend" to stopword list

>>> text = "I have a lot of friends"
>>> " ".join(token.lemma_ for token in nlp(text) if not token.is_stop and token.is_alpha)
'lot friend'

>>> " ".join(token.lemma_ for token in nlp(text) if token.lemma_.lower() not in nlp.Defaults.stop_words and token.is_alpha)
'lot'

如果将大写单词添加到stopword列表中，则需要使用if token.lemma_.lower() not in map(str.lower, nlp.Defaults.stop_words)

相关问题更多 >

编程相关推荐

热门问题

热门文章

在使用spaCy时，如何同时删除停止词和柠檬化？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >