我是一个机器学习的新手,如果我很笨请原谅我。
我有一个列车数据.csv包含22个属性和30000个数据点的文件。在
我必须训练我的模型(不是特定的算法)并预测20000个数据点测试数据.csv我必须用我训练过的模型来预测的文件。在
在列车数据.csv,类标签“0”和“1”的比率为5:1。
如果我用这整个训练数据训练我的模型,我的模型显示出预测0比1的偏差。在
我知道我的测试数据中的实际值是0和1,比例是1:1。在
你能建议我一些方法(某种噪声消除)来预处理我的列车数据,这样在预测我的测试数据时不会偏向0(因为它等于0和1)?在
Tags:
这是一个被称为“不平衡分类”的经典问题
我建议使用一个平衡的装袋分级机。如果你喜欢python,我推荐this。我真的不在乎你包什么,但树是一个好地方开始。这个包中有很多文档和其他方法。在
如果您想更花哨一点,可以在任何类型的树方法中使用Hellinger distance。标准树选择对类大小比率(即倾斜)敏感的分割点。海林格距离不是。我不知道python中有开源实现。在
相关问题 更多 >
编程相关推荐