替换数据框中丢失的日期,我应该使用零、最小日期还是平均值?

2024-05-12 23:26:17 发布

您现在位置:Python中文网/ 问答频道 /正文

在下面的情况下,我是否应该用零年、平均年或最小年“1900”替换NaN

我正在尝试清理下面的示例数据帧第二项在GarageArea和GarageCars列中都没有值为0的garage

编辑:更清楚地说,我不是在寻找如何编辑?我正在寻找缺失日期的最佳值,即“min, avarage, or zero

不删除行,因为它是未训练的测试数据集

我正在尝试用pandas清理sciket的这个测试数据框,因为这是一个日期,我认为使用0是不合适的,而且我也不确定平均值或最小值!!你知道吗

#   Year    GarageArea  GarageCars
1   1900    10           1
2   NaN     0            0
3   2001    50           2
4   1950    70           2
5   2019    100          4

Tags: or数据编辑示例pandas情况nanmin
2条回答

这实际上取决于您试图解决的问题,但通常使用的方法是bfill()ffill()

df.ffill()
     Year  GarageArea  GarageCars
1  1900.0          10           1
2  1900.0           0           0
3  2001.0          50           2
4  1950.0          70           2
5  2019.0         100           4

df.bfill()
     Year  GarageArea  GarageCars
1  1900.0          10           1
2  2001.0           0           0
3  2001.0          50           2
4  1950.0          70           2
5  2019.0         100           4

如果假设GarageArea或GarageCars为NaN,我们可以用平均值填充它们,但当其他字段(GarageArea或GarageCars)为零且年份为NaN时,则删除此类行将是最佳解决方案。你知道吗

相关问题 更多 >