在训练和验证集中使用填补后的交叉验证的方法?

2024-04-20 02:20:37 发布

您现在位置:Python中文网/ 问答频道 /正文

所以我有点困惑。你知道吗

目前,我有大约800个实例的数据集。我把它分成了一个训练集和验证集,因为缺少值,所以我使用sklearn和fit的SimpleImputer转换训练集和测试集。我这样做是因为如果我想预测新的实例,如果有缺失的值,那么我需要用我插补测试集的方法来插补它。你知道吗

现在我想使用交叉验证来训练和评分模型,但这将涉及使用整个数据集,并将其拆分为不同的训练集和测试集,因此我担心由于拟合了插补值而导致训练集泄漏?你知道吗


Tags: 数据实例方法模型sklearn评分交叉fit
1条回答
网友
1楼 · 发布于 2024-04-20 02:20:37

通常,您需要将数据分为三个集—训练集、测试集和验证集。测试集应该完全排除在培训之外(您的担心是正确的)。当使用交叉验证时,您不必担心拆分培训集和验证集-这就是交叉验证为您所做的!只需将训练集传递给cross validator,允许它在幕后分为训练和验证,并在测试集上测试最终的模型(该模型已完全排除在训练过程之外)

相关问题 更多 >