避免过度使用KDD CUP 1998（python） - 问答 - Python中文网

避免过度使用KDD CUP 1998（python）

2024-04-28 08:03:40 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我正在玩KDD杯1998年的数据集，我有几个问题，我希望有人能帮助我回答。对于那些不熟悉这个数据集的人来说，它基本上是一个列表，列出了他们是否向慈善机构捐款（包括他们捐赠的金额）。在

问题1：数据集有大约95000条记录，但其中只有5%属于类别1（捐赠），其余为类别2。在训练时，我该如何处理，以避免过度适应？在

问题2：我想用两种方法来解决这个问题。首先，确定谁将捐赠，谁不捐赠（也许我会使用logistic回归和随机森林分类法？）然后我想决定一个人会捐多少钱。。有什么办法我可以试试吗？在

谢谢！在

Tags：数据方法列表记录森林类别金额分类法

1条回答

网友

1楼 · 发布于 2024-04-28 08:03:40

1）https://stats.stackexchange.com/questions/20948/best-way-to-handle-unbalanced-multiclass-dataset-with-svm 任何现代ML-lib都将对类/示例(sklearn for example)设置权重，因此，与频繁类相比，不太频繁的类更容易出现错误。或者，您可以重新对数据进行采样，使其变得更加平衡（在set中多次从不太频繁的类中复制对象，或者删除更频繁类的对象）。在

2）只需在决策树上尝试不同的分类器，如SVM、RF、AdaBoost，并在测试集上选择一个结果最好的。在

相关问题更多 >

编程相关推荐

热门问题

热门文章