NumPy中命名元组的等价物?
有没有办法创建一个NumPy对象,让它的行为像collections.namedtuple那样,可以通过类似下面的方式来访问元素:
data[1] = 42
data['start date'] = '2011-09-20' # Slight generalization of what is possible with a namedtuple
我尝试使用复杂的数据类型:
>>> data = numpy.empty(shape=tuple(), dtype=[('start date', 'S11'), ('n', int)])
这会创建一个0维的值,类似于namedtuple的类型;它几乎可以工作:
>>> data['start date'] = '2011-09-20'
>>> data
array(('2011-09-20', -3241474627884561860),
dtype=[('start date', '|S11'), ('n', '<i8')])
但是,元素访问不成功,因为这个“数组”是0维的:
>>> data[0] = '2011-09-20'
Traceback (most recent call last):
File "<ipython-input-19-ed41131430b9>", line 1, in <module>
data[0] = '2011-09-20'
IndexError: 0-d arrays can't be indexed.
有没有办法用NumPy对象实现上面描述的那种行为(通过字符串和索引都能进行项的赋值)?
4 个回答
2
在
比如在这个教程里就有介绍:
>>> from pandas import *
>>> import numpy as np
>>> s = Series(np.random.randn(5), index=['a', 'b', 'c', 'd', 'e'])
>>> s
a -0.125628696947
b 0.0942011098937
c -0.71375003803
d -0.590085433392
e 0.993157363933
>>> s[1]
0.094201109893723267
>>> s['b']
0.094201109893723267
我最近玩了几天这个,感觉它的功能很多,很不错。
3
你可以使用 numpy.rec
模块来做一些事情。你需要的是这个模块里的 record
类,但我不知道怎么直接创建这个类的实例。一个间接的方法是先创建一个只有一个条目的 recarray
:
>>> a = numpy.recarray(1, names=["start date", "n"], formats=["S11", "i4"])[0]
>>> a[0] = "2011-09-20"
>>> a[1] = 42
>>> a
('2011-09-20', 42)
>>> a["start date"]
'2011-09-20'
>>> a.n
42
如果你知道怎么直接创建 record
的实例,请告诉我。
2
(根据EOL的建议进行了编辑,以便更具体地回答问题。)
创建一个零维数组(我也没找到标量构造函数。)
>>> data0 = np.array(('2011-09-20', 0), dtype=[('start date', 'S11'), ('n', int)])
>>> data0.ndim
0
访问零维数组中的元素
>>> type(data0[()])
<class 'numpy.void'>
>>> data0[()][0]
b'2011-09-20'
>>> data0[()]['start date']
b'2011-09-20'
>>> #There is also an item() method, which however returns the element as python type
>>> type(data0.item())
<class 'tuple'>
我觉得最简单的理解方式是把结构化数组(或称为递归数组)看作是元组的列表或数组,索引可以通过名称来选择列,也可以通过整数来选择行。
>>> tupleli = [('2011-09-2%s' % i, i) for i in range(5)]
>>> tupleli
[('2011-09-20', 0), ('2011-09-21', 1), ('2011-09-22', 2), ('2011-09-23', 3), ('2011-09-24', 4)]
>>> dt = dtype=[('start date', '|S11'), ('n', np.int64)]
>>> dt
[('start date', '|S11'), ('n', <class 'numpy.int64'>)]
零维数组,元素是元组,也就是一条记录,已更改:不是标量元素,见下文
>>> data1 = np.array(tupleli[0], dtype=dt)
>>> data1.shape
()
>>> data1['start date']
array(b'2011-09-20',
dtype='|S11')
>>> data1['n']
array(0, dtype=int64)
包含一个元素的数组
>>> data2 = np.array([tupleli[0]], dtype=dt)
>>> data2.shape
(1,)
>>> data2[0]
(b'2011-09-20', 0)
一维数组
>>> data3 = np.array(tupleli, dtype=dt)
>>> data3.shape
(5,)
>>> data3[2]
(b'2011-09-22', 2)
>>> data3['start date']
array([b'2011-09-20', b'2011-09-21', b'2011-09-22', b'2011-09-23',
b'2011-09-24'],
dtype='|S11')
>>> data3['n']
array([0, 1, 2, 3, 4], dtype=int64)
直接索引到单个记录,这和EOL的例子一样,我之前不知道这样可以工作
>>> data3[2][1]
2
>>> data3[2][0]
b'2011-09-22'
>>> data3[2]['n']
2
>>> data3[2]['start date']
b'2011-09-22'
试图理解EOL的例子:标量元素和零维数组是不同的
>>> type(data1)
<class 'numpy.ndarray'>
>>> type(data1[()]) #get element out of 0-dim array
<class 'numpy.void'>
>>> data1[0]
Traceback (most recent call last):
File "<pyshell#98>", line 1, in <module>
data1[0]
IndexError: 0-d arrays can't be indexed
>>> data1[()][0]
b'2011-09-20'
>>> data1.ndim
0
>>> data1[()].ndim
0
(注意:我不小心在一个打开的Python 3.2解释器中输入了这个例子,所以出现了b'...')