机器学习(二进制分类)中处理数据的最佳技巧?

2024-04-27 04:38:22 发布

您现在位置:Python中文网/ 问答频道 /正文

我是一个机器学习的新手,如果我很笨请原谅我。 我有一个列车数据.csv包含22个属性和30000个数据点的文件。在

我必须训练我的模型(不是特定的算法)并预测20000个数据点测试数据.csv我必须用我训练过的模型来预测的文件。在

在列车数据.csv,类标签“0”和“1”的比率为5:1。 如果我用这整个训练数据训练我的模型,我的模型显示出预测0比1的偏差。在

我知道我的测试数据中的实际值是0和1,比例是1:1。在

你能建议我一些方法(某种噪声消除)来预处理我的列车数据,这样在预测我的测试数据时不会偏向0(因为它等于0和1)?在


Tags: 文件csv数据模型算法机器属性标签
1条回答
网友
1楼 · 发布于 2024-04-27 04:38:22

这是一个被称为“不平衡分类”的经典问题

我建议使用一个平衡的装袋分级机。如果你喜欢python,我推荐this。我真的不在乎你包什么,但树是一个好地方开始。这个包中有很多文档和其他方法。在

如果您想更花哨一点,可以在任何类型的树方法中使用Hellinger distance。标准树选择对类大小比率(即倾斜)敏感的分割点。海林格距离不是。我不知道python中有开源实现。在

相关问题 更多 >