Sklearn:“str”对象没有属性“read”

2024-04-25 09:18:55 发布

您现在位置:Python中文网/ 问答频道 /正文

我想使用Sklearn将数据矢量化到一个大的csv文件中,我使用了以下代码:

第一次尝试:

from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer(input='file', stop_words = 'english', ngram_range=(1,2))

vectorizer.fit_transform('test.csv')

但我有个错误:

AttributeError:“str”对象没有属性“read”

第二次尝试,但仍出现错误:

^{pr2}$

第三次尝试:这个确实有用,但由于内存不足而被杀死。在

file = open('test.csv', 'r')
a = file.read()
vectorizer = TfidfVectorizer(stop_words = 'english', ngram_range=(1,2))
de = vectorizer.fit_transform(a.split('\n'))

如何在Sklearn中使用fit_transform来处理大型CSV文件?在


Tags: 文件csvtestenglish错误transformrangesklearn
1条回答
网友
1楼 · 发布于 2024-04-25 09:18:55

您将您的输入视为file,并且在这两种情况下都给它一个stringfile.readline()将文件的第一行作为string返回)。在

相反,给它一个文件。在

执行以下操作:

file = open('test.csv', 'r')
vectorizer.fit_transform(file)

相关问题 更多 >