不可损坏类型:stopwords的“list”错误

2024-03-28 11:02:59 发布

您现在位置:Python中文网/ 问答频道 /正文

这是我的密码

CSV文件的URL:https://github.com/eugeneketeni/web-mining-final-project/blob/master/Test_file.csv

import pandas as pd

data = pd.read_csv("https://raw.githubusercontent.com/eugeneketeni/web- 
mining-final-project/master/Test_file.csv")

import nltk
from nltk import word_tokenize, sent_tokenize


data['text'] = data.loc[:, 'text'].astype(str)

text = data.loc[:, "text"].astype(str)
tokenizer = [word_tokenize(text[i]) for i in range(len(text))]
print(tokenizer)

filtered_sentence = []


from nltk.corpus import stopwords
stopwords = set(stopwords.words('english'))

filtered_sentence = [w for w in tokenizer if not w in stopwords]
print(filtered_sentence) 

我的标记器可以工作,但是当我试图删除默认的非索引字时,我总是收到“unhable type:'list'”错误。我不知道到底发生了什么。我会很感激你的帮助。谢谢。在


Tags: csvtextinhttpsimportcomwebdata
1条回答
网友
1楼 · 发布于 2024-03-28 11:02:59

TL;DR

from nltk import word_tokenize
from nltk.corpus import stopwords

import pandas as pd

stoplist = set(stopwords.words('english'))

data = pd.read_csv("Test_file.csv")

data['filtered_text'] = data['text'].astype(str).apply(lambda line: [token for token in word_tokenize(line) if token not in stoplist])

很长时间内

请参见Why is my NLTK function slow when processing the DataFrame?了解有关以下内容的详细说明:

  • 在数据帧中标记文本
  • 删除停止字
  • 其他相关清洁工艺

为了更好,twitter文本处理

^{pr2}$

然后使用这个:

从自然语言库导入非索引字

from nltk.tokenize import TweetTokenizer

import pandas as pd

word_tokenize = TweetTokenizer().tokenize

stoplist = set(stopwords.words('english'))

data = pd.read_csv("Test_file.csv")

data['filtered_text'] = data['text'].astype(str).apply(lambda line: [token for token in word_tokenize(line) if token not in stoplist])

相关问题 更多 >