随机森林,训练集和测试集的auc

2024-05-16 19:04:10 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试调整我的随机森林分类器。当我使用GridSearchCV时,最好的参数是min_samples_split = 2min_samples_leaf = 4max_depth = None,我认为这绝对是一个过度拟合。因此,我绘制了培训和测试数据的auc:

AUC vs depth

图表显示,随着max_depth的增加,训练auc和测试auc都将增加;这个图表有意义吗?因为我认为在某种程度上,随着深度的增加,测试数据的性能实际上会下降


Tags: none参数分类器图表森林minmaxsplit
2条回答

你认为大的max_depth会导致过度拟合,最终降低考试分数,这是正确的。然而,如图所示,直到深度14之后,数据才会发生这种情况。您说最佳的max_depthNone,即一个完整的深度树,是非常令人惊讶的,但是我们需要更多地了解您的数据、搜索空间等,才能说得更多

现在,在某些情况下,测试分数不是唯一的考虑因素,并且您可能要考虑比给出最佳测试分数的小^ ^ {CD1>}。例如,见https://datascience.stackexchange.com/q/66350/55122。所以,看看你的情节,也许你更喜欢深度在10左右,作为一个可能更稳定但性能稍差的模型

我认为您需要限制“最大深度”,以避免过度安装。这是你的直觉。因此,我的建议是阅读本https://medium.com/all-things-ai/in-depth-parameter-tuning-for-random-forest-d67bb7e920d。也许对你有帮助

相关问题 更多 >