2024-04-23 10:40:10 发布
网友
我想训练我的数据集13159个实例,使用词包特征矩阵,特征数为18800
我的代码在不使用10倍cv时运行良好,甚至不训练整个数据集。 但当我使用10倍的cv指数时,它给了我记忆错误
<class 'numpy.ndarray'> train_data = np.array(data_content[train_index])MemoryError
我不认为这个数据集太大,无法分解内存空间。我的笔记本是4GB RAM和64位
在每个循环的末尾,我添加了以下代码,没有内存错误:
train_data = [] train_label = [] test_data = [] test_label = []
使用nohup启动代码并检查cpu利用率。在Linux中,可以使用
htop
我的猜测是,你的cpu将被100%利用。在
为了解决这个问题,你可以减少你的特征,或者使用核心外的特征提取方法。我更喜欢sklearn的这些:
- PCA
- L1 Regularization
- FeatutreVectorizer
- Out of core feature extraction
还会有更多。在
在每个循环的末尾,我添加了以下代码,没有内存错误:
使用nohup启动代码并检查cpu利用率。在Linux中,可以使用
我的猜测是,你的cpu将被100%利用。在
为了解决这个问题,你可以减少你的特征,或者使用核心外的特征提取方法。我更喜欢sklearn的这些:
- PCA
- L1 Regularization
- FeatutreVectorizer
- Out of core feature extraction
还会有更多。在
相关问题 更多 >
编程相关推荐