将单词添加到nltk停止词表中
我有一些代码可以从我的数据集中去掉“停用词”,因为现有的停用词列表似乎没法去掉我想去掉的大部分词汇。所以我想在这个停用词列表中添加一些词,这样在处理数据的时候就能把它们去掉。
我用来去掉停用词的代码是:
word_list2 = [w.strip() for w in word_list if w.strip() not in nltk.corpus.stopwords.words('english')]
不过我不太确定怎么正确地添加词汇,也找不到合适的写法。希望有人能帮帮我。谢谢!
10 个回答
3
我在我的Ubuntu电脑上是这样做的:我按下了ctrl + F,然后搜索“stopwords”这个词,找到了一个文件夹。我进入了那个文件夹,里面有不同的文件。我打开了一个叫“english”的文件,里面只有128个单词。我把我的单词加进去,保存一下就完成了。
7
import nltk
stopwords = nltk.corpus.stopwords.words('english')
new_words=('re','name', 'user', 'ct')
for i in new_words:
stopwords.append(i)
print(stopwords)
这段代码的意思是……
首先,它定义了一个变量,变量就像一个盒子,可以用来存放数据。接下来,它可能会进行一些操作,比如计算、比较或者改变这个变量的值。
然后,代码可能会使用一些条件判断,比如“如果这个条件成立,就执行这段代码”,这样可以让程序根据不同的情况做出不同的反应。
最后,代码可能会输出一些结果,告诉我们程序运行的结果是什么。
总的来说,这段代码的目的是……
希望这些解释能帮助你更好地理解这段代码的功能和作用!
28
你可以简单地使用append方法来给它添加单词:
stopwords = nltk.corpus.stopwords.words('english')
stopwords.append('newWord')
或者使用extend方法来添加一个单词列表,就像Charlie在评论中提到的那样。
stopwords = nltk.corpus.stopwords.words('english')
newStopWords = ['stopWord1','stopWord2']
stopwords.extend(newStopWords)