我正在处理一个大数据集(891221x85)。数据中的每一列都有不同的缺失值或未知值指示。例如:第1列缺失值用-1或X表示,第2列缺失值用XX和0表示,等等
现在,我尝试循环遍历数据集中的每个元素,并使用以下代码将每个缺少的值转换为np.nan:
for i in range(data.shape[1]):
for j in range(data.shape[0]):
if data.iloc[j,i] in indicators[i]:
data.iloc[j,i] = np.nan
由于数据有大约7500万个数据条目,这个过程可能需要几天时间。有没有更有效的方法
尝试:
文档:https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.replace.html
相关问题 更多 >
编程相关推荐