将单词添加到nltk停止词表中

23 投票
10 回答
64330 浏览
提问于 2025-04-16 14:52

我有一些代码可以从我的数据集中去掉“停用词”,因为现有的停用词列表似乎没法去掉我想去掉的大部分词汇。所以我想在这个停用词列表中添加一些词,这样在处理数据的时候就能把它们去掉。

我用来去掉停用词的代码是:

word_list2 = [w.strip() for w in word_list if w.strip() not in nltk.corpus.stopwords.words('english')]

不过我不太确定怎么正确地添加词汇,也找不到合适的写法。希望有人能帮帮我。谢谢!

10 个回答

3

我在我的Ubuntu电脑上是这样做的:我按下了ctrl + F,然后搜索“stopwords”这个词,找到了一个文件夹。我进入了那个文件夹,里面有不同的文件。我打开了一个叫“english”的文件,里面只有128个单词。我把我的单词加进去,保存一下就完成了。

7
import nltk
stopwords = nltk.corpus.stopwords.words('english')
new_words=('re','name', 'user', 'ct')
for i in new_words:
    stopwords.append(i)
print(stopwords)

这段代码的意思是……

首先,它定义了一个变量,变量就像一个盒子,可以用来存放数据。接下来,它可能会进行一些操作,比如计算、比较或者改变这个变量的值。

然后,代码可能会使用一些条件判断,比如“如果这个条件成立,就执行这段代码”,这样可以让程序根据不同的情况做出不同的反应。

最后,代码可能会输出一些结果,告诉我们程序运行的结果是什么。

总的来说,这段代码的目的是……

希望这些解释能帮助你更好地理解这段代码的功能和作用!

28

你可以简单地使用append方法来给它添加单词:

stopwords = nltk.corpus.stopwords.words('english')
stopwords.append('newWord')

或者使用extend方法来添加一个单词列表,就像Charlie在评论中提到的那样。

stopwords = nltk.corpus.stopwords.words('english')
newStopWords = ['stopWord1','stopWord2']
stopwords.extend(newStopWords)

撰写回答