避免过度使用KDD CUP 1998(python)

2024-04-28 08:03:40 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在玩KDD杯1998年的数据集,我有几个问题,我希望有人能帮助我回答。对于那些不熟悉这个数据集的人来说,它基本上是一个列表,列出了他们是否向慈善机构捐款(包括他们捐赠的金额)。在

问题1: 数据集有大约95000条记录,但其中只有5%属于类别1(捐赠),其余为类别2。在训练时,我该如何处理,以避免过度适应?在

问题2: 我想用两种方法来解决这个问题。首先,确定谁将捐赠,谁不捐赠(也许我会使用logistic回归和随机森林分类法?)然后我想决定一个人会捐多少钱。。有什么办法我可以试试吗?在

谢谢!在


Tags: 数据方法列表记录森林类别金额分类法
1条回答
网友
1楼 · 发布于 2024-04-28 08:03:40

1)https://stats.stackexchange.com/questions/20948/best-way-to-handle-unbalanced-multiclass-dataset-with-svm 任何现代ML-lib都将对类/示例(sklearn for example)设置权重,因此,与频繁类相比,不太频繁的类更容易出现错误。或者,您可以重新对数据进行采样,使其变得更加平衡(在set中多次从不太频繁的类中复制对象,或者删除更频繁类的对象)。在

2)只需在决策树上尝试不同的分类器,如SVM、RF、AdaBoost,并在测试集上选择一个结果最好的。在

相关问题 更多 >