numpy astype的奇怪行为

import pandas as pd import numpy as np import sys df = pd.DataFrame([[0.1, 2, 'a']], columns=["a1", "a2", "str"]) arr = df.to_records(index=False) dtype1 = [('a1', np.float32), ('a2', np.int32), ('str', '|S2')] dtype2 = [('a2', np.int32), ('a1', np.float32), ('str', '|S2')] arr1 = arr.astype(dtype1) arr2 = arr.astype(dtype2) print(arr1) print(arr2) print(arr) print(sys.version) print(np.__version__) print(pd.__version__)

[(0.10000000149011612, 2, 'a') (0.10000000149011612, 2, 'b')] [(2, 0.10000000149011612, 'a') (2, 0.10000000149011612, 'b')] [(0.1, 2L, 'a') (0.1, 2L, 'b')] 2.7.13 (v2.7.13:a06454b1afa1, Dec 17 2016, 20:53:40) [MSC v.1500 64 bit (AMD64)] 1.11.1 0.20.3

1条回答

网友

1楼 · 发布于 2024-04-26 10:29:35

https://docs.scipy.org/doc/numpy/user/basics.rec.html#assignment-from-other-structured-arrays

表示来自其他结构化数组的赋值是按位置，而不是按字段名。我认为这适用于astype。如果是这样，就意味着不能用astype对字段重新排序。你知道吗

一次访问多个字段在最近的版本中已经发生了变化，而且可能会有更多的变化。部分原因在于，这种访问应该是副本还是视图。你知道吗

recfunctions有添加、删除或合并字段的代码。一种常见的策略是使用新的数据类型创建一个目标数组，并按字段名将值复制到该数组中。这是迭代的，但由于通常一个数组会有比字段更多的记录，所以时间损失不大

在版本1.14中，我可以：

In [152]: dt1 = np.dtype([('a',float),('b',int), ('c','U3')])
In [153]: dt2 = np.dtype([('b',int),('a',float), ('c','S3')])

In [154]: arr1 = np.array([(1,2,'a'),(3,4,'b'),(5,6,'c')], dt1)
In [155]: arr1
Out[155]: 
array([(1., 2, 'a'), (3., 4, 'b'), (5., 6, 'c')],
      dtype=[('a', '<f8'), ('b', '<i8'), ('c', '<U3')])

仅使用astype不会对字段重新排序：

In [156]: arr1.astype(dt2)
Out[156]: 
array([(1, 2., b'a'), (3, 4., b'b'), (5, 6., b'c')],
      dtype=[('b', '<i8'), ('a', '<f8'), ('c', 'S3')])

但多字段索引确实：

In [157]: arr1[['b','a','c']]
Out[157]: 
array([(2, 1., 'a'), (4, 3., 'b'), (6, 5., 'c')],
      dtype=[('b', '<i8'), ('a', '<f8'), ('c', '<U3')])

现在dt2astype是正确的：

In [158]: arr2 = arr1[['b','a','c']].astype(dt2)

In [159]: arr2
Out[159]: 
array([(2, 1., b'a'), (4, 3., b'b'), (6, 5., b'c')],
      dtype=[('b', '<i8'), ('a', '<f8'), ('c', 'S3')])

In [160]: arr1['a']
Out[160]: array([1., 3., 5.])

In [161]: arr2['a']
Out[161]: array([1., 3., 5.])

这是1.14；您使用的是1.15，文档中提到了1.16中的差异。所以这是一个移动的目标。你知道吗

astype的行为与对“blank”数组的赋值相同：

In [162]: arr2 = np.zeros(arr1.shape, dt2)

In [163]: arr2
Out[163]: 
array([(0, 0., b''), (0, 0., b''), (0, 0., b'')],
      dtype=[('b', '<i8'), ('a', '<f8'), ('c', 'S3')])

In [164]: arr2[:] = arr1

In [165]: arr2
Out[165]: 
array([(1, 2., b'a'), (3, 4., b'b'), (5, 6., b'c')],
      dtype=[('b', '<i8'), ('a', '<f8'), ('c', 'S3')])

In [166]: arr2[:] = arr1[['b','a','c']]

In [167]: arr2
Out[167]: 
array([(2, 1., b'a'), (4, 3., b'b'), (6, 5., b'c')],
      dtype=[('b', '<i8'), ('a', '<f8'), ('c', 'S3')])

相关问题更多 >

编程相关推荐

热门问题

热门文章