NumPy二维数组的切片，或者如何从nxn数组（n>m）中提取mxm子矩阵？

3条回答

网友

1楼 · 编辑于 2024-05-15 12:50:25

为了回答这个问题，我们必须看看如何在Numpy中索引多维数组。首先假设你的问题中有数组x。分配给x的缓冲区将包含16个从0到15的升序整数。如果您访问一个元素，比如x[i,j]，NumPy必须找出这个元素相对于缓冲区开头的内存位置。这是通过计算实际的i*x.shape[1]+j（并与int的大小相乘以获得实际的内存偏移量）来完成的。

如果通过基本切片（如y = x[0:2,0:2]）提取子数组，则结果对象将与x共享底层缓冲区。但是，如果您访问y[i,j]，会发生什么？NumPy不能使用i*y.shape[1]+j来计算数组的偏移量，因为属于y的数据在内存中不是连续的。

NumPy通过引入跨步来解决这个问题。在计算访问x[i,j]的内存偏移量时，实际计算的是i*x.strides[0]+j*x.strides[1]（这已经包括int大小的因子）：

x.strides
(16, 4)

当如上所述提取y时，NumPy不会创建一个新的缓冲区，但它会创建一个引用同一缓冲区的新数组对象（否则y将只等于x）。新数组对象将具有不同的形状，然后x，可能会有不同的缓冲区起始偏移量，但将与x共享这些进展（在本例中至少是这样）：

y.shape
(2,2)
y.strides
(16, 4)

这样，计算y[i,j]的内存偏移量将得到正确的结果。

但是对于像z=x[[1,3]]这样的事情，NumPy应该怎么做呢？如果原始缓冲区用于z，那么spinds机制将不允许正确的索引。从理论上讲，NumPy可以添加一些比streams更复杂的机制，但这会使元素访问相对昂贵，在某种程度上违背了数组的整体思想。此外，视图不再是真正的轻量级对象。

这在the NumPy documentation on indexing中有详细介绍。

哦，差点忘了你的实际问题：下面是如何使多个列表的索引按预期工作：

x[[[1],[3]],[1,3]]

这是因为索引数组是一个公共形状的broadcasted。当然，对于这个特定的示例，您还可以使用基本切片：

x[1::2, 1::2]

网友

2楼 · 编辑于 2024-05-15 12:50:25

我不认为x[[1,3]][:,[1,3]]很难阅读。如果你想更清楚自己的意图，你可以：

a[[1,3],:][:,[1,3]]

我不是切片专家，但通常情况下，如果您尝试切片到数组中，并且值是连续的，则会返回一个改变步长值的视图。

例如，在你的输入33和34中，虽然你得到一个2x2数组，但步幅是4。因此，当索引下一行时，指针将移动到内存中的正确位置。

显然，这种机制不能很好地应用于索引数组的情况。因此，numpy必须复制。毕竟，许多其他的矩阵数学函数依赖于大小、步幅和连续内存分配。

网友

3楼 · 编辑于 2024-05-15 12:50:25

如Sven所述，x[[[0],[2]],[1,3]]将返回与1列和3列匹配的0行和2行，而x[[0,2],[1,3]]将返回数组中的值x[0,1]和x[2,3]。

对于我给出的第一个示例，numpy.ix_有一个有用的函数。你可以用x[numpy.ix_([0,2],[1,3])]做和我的第一个例子一样的事情。这样可以省去您输入所有这些额外的括号。

相关问题更多 >

编程相关推荐

热门问题

热门文章