机器学习（二进制分类）中处理数据的最佳技巧？ - 问答 - Python中文网

机器学习（二进制分类）中处理数据的最佳技巧？

2024-04-27 04:38:22 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我是一个机器学习的新手，如果我很笨请原谅我。我有一个列车数据.csv包含22个属性和30000个数据点的文件。在

我必须训练我的模型（不是特定的算法）并预测20000个数据点测试数据.csv我必须用我训练过的模型来预测的文件。在

在列车数据.csv，类标签“0”和“1”的比率为5:1。如果我用这整个训练数据训练我的模型，我的模型显示出预测0比1的偏差。在

我知道我的测试数据中的实际值是0和1，比例是1:1。在

你能建议我一些方法（某种噪声消除）来预处理我的列车数据，这样在预测我的测试数据时不会偏向0（因为它等于0和1）？在

Tags：文件 csv 数据模型算法机器属性标签

1条回答

网友

1楼 · 发布于 2024-04-27 04:38:22

这是一个被称为“不平衡分类”的经典问题

我建议使用一个平衡的装袋分级机。如果你喜欢python，我推荐this。我真的不在乎你包什么，但树是一个好地方开始。这个包中有很多文档和其他方法。在

如果您想更花哨一点，可以在任何类型的树方法中使用Hellinger distance。标准树选择对类大小比率（即倾斜）敏感的分割点。海林格距离不是。我不知道python中有开源实现。在

相关问题更多 >

编程相关推荐

热门问题

热门文章