我有一个稀疏的特征矩阵,它是使用sklearn进行以下操作的结果:
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer(analyzer = "word",tokenizer = None,preprocessor = None,stop_words = None,max_features = 5000)
train_data_features = vectorizer.fit_transform(y)
转换为连续数组表示将具体化内存中的所有零,结果大小为:
train_data_features.shape[0] * train_data_features.shape[1] * train_data_features.dtype.itemsize / 1e6
结果是:`6242.4
这是8GB,相比之下,原始稀疏表示不到1MB。 那么,如何解决这个问题,以便我能够有效地将得到的数组拟合到随机林分类器中呢?你知道吗
`
试试这个:
但是正如@yangjie上面所说的,当你可以的时候,你应该对稀疏矩阵进行运算。你知道吗
相关问题 更多 >
编程相关推荐