在Python中转换为数组时出现内存错误

3 投票

2 回答

8736 浏览

提问于 2025-04-18 07:39

我的代码如下：

from sklearn.datasets import load_svmlight_files
import numpy as np

perm1 =np.random.permutation(25000)
perm2 = np.random.permutation(25000)

X_tr, y_tr, X_te, y_te = load_svmlight_files(("dir/file.feat", "dir/file.feat"))

#randomly shuffle data
X_train = X_tr[perm1,:].toarray()[:,0:2000]
y_train = y_tr[perm1]>5 #turn into binary problem

这段代码在这里运行得很好，但当我尝试把另一个对象转换成数组时，我的程序就出现了内存错误。

代码：

X_test = X_te[perm2,:].toarray()[:,0:2000]

错误：

---------------------------------------------------------------------------
MemoryError                               Traceback (most recent call last)
<ipython-input-7-31f5e4f6b00c> in <module>()
----> 1 X_test = X_test.toarray()

C:\Users\Asq\AppData\Local\Enthought\Canopy\User\lib\site-packages\scipy\sparse\compressed.pyc in toarray(self, order, out)
    788     def toarray(self, order=None, out=None):
    789         """See the docstring for `spmatrix.toarray`."""
--> 790         return self.tocoo(copy=False).toarray(order=order, out=out)
    791 
    792     ##############################################################

C:\Users\Asq\AppData\Local\Enthought\Canopy\User\lib\site-packages\scipy\sparse\coo.pyc in toarray(self, order, out)
    237     def toarray(self, order=None, out=None):
    238         """See the docstring for `spmatrix.toarray`."""
--> 239         B = self._process_toarray_args(order, out)
    240         fortran = int(B.flags.f_contiguous)
    241         if not fortran and not B.flags.c_contiguous:

C:\Users\Asq\AppData\Local\Enthought\Canopy\User\lib\site-packages\scipy\sparse\base.pyc in _process_toarray_args(self, order, out)
    697             return out
    698         else:
--> 699             return np.zeros(self.shape, dtype=self.dtype, order=order)
    700 
    701 

MemoryError:

我刚学Python，不知道是不是需要手动修复这个内存错误。

我代码的其他部分也出现了同样的错误（比如用knn或ann进行训练时）。

我该怎么解决这个问题呢？

错误处理内存管理机器学习 KNN 数组转换 ann

2 个回答

使用numpy.asarray()进行就地转换，而不是用toarray()，因为后者需要重新分配内存。

回答于 2025-04-18 由 Python大师

分享举报

在这种情况下，通常可以避免将稀疏矩阵转换为密集格式。

比如，你可以使用CSR或CSC稀疏格式来轻松地进行排列和切片操作，具体可以参考这里。

你没有贴出后面的代码，但我猜测这段代码也可以处理稀疏输入。如果真是这样的话，你的内存问题就不再是问题了。

回答于 2025-04-18 由 Python大师

分享举报

在Python中转换为数组时出现内存错误

2 个回答

撰写回答