删除重复行

1 投票
1 回答
15 浏览
提问于 2025-04-12 20:32

我想问一个问题:在把数据分成测试集和训练集之前还是之后去掉重复的行,哪个更正确或者更好呢?

一方面,分开后去掉重复的行更好;这样训练模型的时候就不会受到这些重复数据的影响,测试的时候也不会出现错误的高表现。但是另一方面,当我分割数据时,我会去掉标签,这样通常会增加重复的行。那么,最好的方法是什么呢?

1 个回答

0

在分割数据之前,一定要先处理重复的数据。

如果不这样做,可能会出现一个重复的数据在测试集里,另一个在训练集里。这样的话,训练集和测试集中就会有完全相同的数据,这样会影响结果的准确性。

即使重复的数据只在一个子集中,它们也会影响结果。如果模型在这些重复数据上的预测效果很好,就会让你的评估指标看起来很好;但如果预测效果不好,那就会让指标变差。

撰写回答