我正在玩KDD杯1998年的数据集,我有几个问题,我希望有人能帮助我回答。对于那些不熟悉这个数据集的人来说,它基本上是一个列表,列出了他们是否向慈善机构捐款(包括他们捐赠的金额)。在
问题1:
数据集有大约95000条记录,但其中只有5%属于类别1(捐赠),其余为类别2。在训练时,我该如何处理,以避免过度适应?在
问题2:
我想用两种方法来解决这个问题。首先,确定谁将捐赠,谁不捐赠(也许我会使用logistic回归和随机森林分类法?)然后我想决定一个人会捐多少钱。。有什么办法我可以试试吗?在
谢谢!在
Tags:
1)https://stats.stackexchange.com/questions/20948/best-way-to-handle-unbalanced-multiclass-dataset-with-svm 任何现代ML-lib都将对类/示例(sklearn for example)设置权重,因此,与频繁类相比,不太频繁的类更容易出现错误。或者,您可以重新对数据进行采样,使其变得更加平衡(在set中多次从不太频繁的类中复制对象,或者删除更频繁类的对象)。在
2)只需在决策树上尝试不同的分类器,如SVM、RF、AdaBoost,并在测试集上选择一个结果最好的。在
相关问题 更多 >
编程相关推荐