Sklearn SimpleImputer策略常数vs fillna?

2024-04-25 04:06:13 发布

您现在位置:Python中文网/ 问答频道 /正文

使用sklearn SimpleImputer策略常量和使用fillna(值)有什么区别? 例如:SimpleImputer(missing_values=np.nan, strategy='constant', fill_value = 0)vsdf.fillna(0) 即使对于strategy=mean,我们也可以使用df.fillna(df.mean)。 使用simpleImputer,我们仍然需要调整数据帧和更多行。 fillna是短代码。 当我们需要使用simpleImputer而不是fillna时是什么情况?simpleImputer更快吗


Tags: dfnpsklearnnanmean策略values常量
2条回答

我认为:两者都是用来填充缺失的值。如果项目中没有使用pandas,那么SimpleImputer是一个很好的选择,因为它是一个内置的sklearn功能

  • SimpleImputer有更好的选项,如medianmost-frequent
  • df.fillna()是最常用的,可用于复杂场景
  • 未测试性能

我认为,当您试图部署模型时,使用sklearn在数据集上拥有一个转换管道会更干净。在训练或推断之前,您甚至可以将数据集上的所有转换添加到一个漂亮的管道包装器中,例如^{}对象。如果使用sklearn实现,以后集成和调试会更容易

相关问题 更多 >