如何在一个巨大的数据集中发现和转换数据帧中丢失的值?

2024-05-23 18:16:42 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在处理一个大数据集(891221x85)。数据中的每一列都有不同的缺失值或未知值指示。例如:第1列缺失值用-1或X表示,第2列缺失值用XX和0表示,等等

现在,我尝试循环遍历数据集中的每个元素,并使用以下代码将每个缺少的值转换为np.nan:

for i in range(data.shape[1]):
    for j in range(data.shape[0]):
        if data.iloc[j,i] in indicators[i]:
            data.iloc[j,i] = np.nan

由于数据有大约7500万个数据条目,这个过程可能需要几天时间。有没有更有效的方法


Tags: 数据代码in元素fordataifnp