kfold CV的sklearn内存错误

2024-04-23 10:40:10 发布

您现在位置:Python中文网/ 问答频道 /正文

我想训练我的数据集13159个实例,使用词包特征矩阵,特征数为18800

我的代码在不使用10倍cv时运行良好,甚至不训练整个数据集。 但当我使用10倍的cv指数时,它给了我记忆错误

<class 'numpy.ndarray'>
train_data = np.array(data_content[train_index])MemoryError

我不认为这个数据集太大,无法分解内存空间。我的笔记本是4GB RAM和64位

^{pr2}$

Tags: 数据实例记忆代码numpydata错误np
2条回答

在每个循环的末尾,我添加了以下代码,没有内存错误:

train_data = []
train_label = []
test_data = []
test_label = []

使用nohup启动代码并检查cpu利用率。在Linux中,可以使用

htop

我的猜测是,你的cpu将被100%利用。在

为了解决这个问题,你可以减少你的特征,或者使用核心外的特征提取方法。我更喜欢sklearn的这些:

- PCA

- L1 Regularization

- FeatutreVectorizer

- Out of core feature extraction

还会有更多。在

相关问题 更多 >