如何使用numpy/scipy处理丢失的数据？

网友

1楼 · 编辑于 2024-05-16 15:10:47

正如DpplerShift所描述的，屏蔽阵列是anwswer。为了快速和不方便地使用，您可以使用布尔数组的特殊索引：

>>> import numpy as np
>>> data = np.arange(10)
>>> valid_idx = data % 2 == 0 #pretend that even elements are missing

>>> # Get non-missing data
>>> data[valid_idx]
array([0, 2, 4, 6, 8])

现在也可以使用有效的idx作为其他数据的快速掩码

>>> comparison = np.arange(10) + 10
>>> comparison[valid_idx]
array([10, 12, 14, 16, 18])

网友

2楼 · 编辑于 2024-05-16 15:10:47

如果您愿意考虑一个库，pandas（http://pandas.pydata.org/）是一个建立在numpy之上的库，它提供了许多其他功能：

Intelligent data alignment and integrated handling of missing data: gain automatic label-based alignment in computations and easily manipulate messy data into an orderly form

在金融行业，我已经用了将近一年的时间了，在那里，数据丢失和不一致是常态，这真的让我的生活更轻松。

网友

3楼 · 编辑于 2024-05-16 15:10:47

我也质疑屏蔽阵列的问题。下面是几个例子：

import numpy as np
data = np.ma.masked_array(np.arange(10))
data[5] = np.ma.masked # Mask a specific value

data[data>6] = np.ma.masked # Mask any value greater than 6

# Same thing done at initialization time
init_data = np.arange(10)
data = np.ma.masked_array(init_data, mask=(init_data > 6))

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何使用numpy/scipy处理丢失的数据？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >