删除重复行

1 投票

1 回答

15 浏览

提问于 2025-04-12 20:32

我想问一个问题：在把数据分成测试集和训练集之前还是之后去掉重复的行，哪个更正确或者更好呢？

一方面，分开后去掉重复的行更好；这样训练模型的时候就不会受到这些重复数据的影响，测试的时候也不会出现错误的高表现。但是另一方面，当我分割数据时，我会去掉标签，这样通常会增加重复的行。那么，最好的方法是什么呢？

数据清洗数据分割模型训练重复数据训练集与测试集

1 个回答

在分割数据之前，一定要先处理重复的数据。

如果不这样做，可能会出现一个重复的数据在测试集里，另一个在训练集里。这样的话，训练集和测试集中就会有完全相同的数据，这样会影响结果的准确性。

即使重复的数据只在一个子集中，它们也会影响结果。如果模型在这些重复数据上的预测效果很好，就会让你的评估指标看起来很好；但如果预测效果不好，那就会让指标变差。

回答于 2025-04-12 由 Python大师

分享举报