我想使用Sklearn将数据矢量化到一个大的csv文件中,我使用了以下代码:
第一次尝试:
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer(input='file', stop_words = 'english', ngram_range=(1,2))
vectorizer.fit_transform('test.csv')
但我有个错误:
AttributeError:“str”对象没有属性“read”
第二次尝试,但仍出现错误:
^{pr2}$第三次尝试:这个确实有用,但由于内存不足而被杀死。在
file = open('test.csv', 'r')
a = file.read()
vectorizer = TfidfVectorizer(stop_words = 'english', ngram_range=(1,2))
de = vectorizer.fit_transform(a.split('\n'))
如何在Sklearn中使用fit_transform来处理大型CSV文件?在
您将您的输入视为
file
,并且在这两种情况下都给它一个string
,file.readline()
将文件的第一行作为string
返回)。在相反,给它一个文件。在
执行以下操作:
相关问题 更多 >
编程相关推荐