如何正确地将不平衡的数据集拆分为训练集和测试集?

2024-05-14 08:02:25 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个航班延误数据集,并尝试在采样前将其拆分为训练集和测试集。准时病例约占总数据的80%,延迟病例约占20%。在

通常情况下,训练和测试集大小的机器学习比率为8:2。但数据太不平衡了。因此,考虑到极端情况,列车数据大多为正点情况,试验数据大多为延误情况,准确性较差。在

所以我的问题是如何正确地将不平衡的数据集分割成训练集和测试集??在


Tags: 数据机器情况比率航班准确性列车病例
2条回答

从50/50开始,继续将设置更改为60/40、70/30、80/20、90/10。宣布所有结果并得出结论。在我的一个航班延误预测项目中,我使用了60/40数据库,使用MLP神经网络得到了86.8%的准确率。在

也许仅仅是玩训练和测试的比率,你可能不会得到正确的预测和结果。在

如果您正在处理不平衡的数据集,您应该尝试重新采样技术以获得更好的结果。在不平衡数据集的情况下,分类器总是“预测”最常见的类,而不执行任何特征分析。在

在数据集不平衡的情况下,也可以使用不同的指标来衡量表现,如F1分数等

请通过下面的链接,它会让你更清楚。在

What is the correct procedure to split the Data sets for classification problem?

Cleveland heart disease dataset - can’t describe the class

相关问题 更多 >

    热门问题