如何从生成器构建numpy数组?

2024-04-23 23:25:42 发布

您现在位置:Python中文网/ 问答频道 /正文

如何从生成器对象构建numpy数组?

让我来说明这个问题:

>>> import numpy
>>> def gimme():
...   for x in xrange(10):
...     yield x
...
>>> gimme()
<generator object at 0x28a1758>
>>> list(gimme())
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
>>> numpy.array(xrange(10))
array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
>>> numpy.array(gimme())
array(<generator object at 0x28a1758>, dtype=object)
>>> numpy.array(list(gimme()))
array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

在这个例子中,gimme()是一个生成器,我想把它的输出转换成一个数组。但是,数组构造函数不会遍历生成器,它只是存储生成器本身。我想要的行为是从numpy.array(list(gimme()))开始的,但是我不想为同时在内存中拥有中间列表和最终数组而支付内存开销。有没有更节省空间的方法?


Tags: 对象内存inimportnumpyforobjectdef
3条回答

虽然可以使用numpy.fromiter()从生成器创建1D数组,但可以使用numpy.stack从生成器创建N-D数组:

>>> mygen = (np.ones((5, 3)) for _ in range(10))
>>> x = numpy.stack(mygen)
>>> x.shape
(10, 5, 3)

它也适用于一维阵列:

>>> numpy.stack(2*i for i in range(10))
array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

注意,numpy.stack在内部使用生成器,并使用arrays = [asanyarray(arr) for arr in arrays]创建一个中间列表。可以找到实现here

与python列表不同,Numpy数组要求在创建时显式地设置其长度。这是必要的,以便可以在内存中连续分配每个项的空间。连续分配是numpy数组的关键特性:这与本机代码实现相结合,使得对它们的操作执行比常规列表快得多。

记住这一点,在技术上不可能将生成器对象转换为数组,除非您:

  1. 可以预测运行时将产生多少元素:

    my_array = numpy.empty(predict_length())
    for i, el in enumerate(gimme()): my_array[i] = el
    
  2. 愿意将其元素存储在中间列表中:

    my_array = numpy.array(list(gimme()))
    
  3. 可以生成两个相同的生成器,运行第一个生成器以查找总长度,初始化数组,然后再次运行生成器以查找每个元素:

    length = sum(1 for el in gimme())
    my_array = numpy.empty(length)
    for i, el in enumerate(gimme()): my_array[i] = el
    

1可能是您要找的。2是空间效率低的,而3是时间效率低的(您必须通过发电机两次)。

在这个stackoverflow结果的背后,我发现有一个^{}。默认的count=-1接受iterable中的所有元素。它要求显式设置dtype。就我而言,这起作用:

numpy.fromiter(something.generate(from_this_input), float)

相关问题 更多 >