机器学习中的集成技术问题

2024-04-26 23:23:10 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在学习集成机器学习,当我在网上读到一些文章时,我遇到了两个问题。你知道吗

1.

在这个article中,它提到

Instead, model 2 may have a better overall performance on all the data points, but it has worse performance on the very set of points where model 1 is better. The idea is to combine these two models where they perform the best. This is why creating out-of-sample predictions have a higher chance of capturing distinct regions where each model performs the best.

enter image description here

但我还是不明白,为什么不把所有的训练数据都训练出来就可以避免这个问题呢?你知道吗

2.

从这个article,在预测部分,它提到

Simply, for a given input data point, all we need to do is to pass it through the M base-learners and get M number of predictions, and send those M predictions through the meta-learner as inputs

但是在训练过程中,我们使用k倍的训练数据来训练M-base学习者,那么我是否也应该训练M-base学习者基于所有的训练数据进行输入预测呢?你知道吗


Tags: oftheto数据basemodelison
3条回答

集合中的想法是,一组弱预测因子比一个强预测因子表现更好。因此,如果我们用不同的预测结果训练不同的模型,并使用多数规则作为我们集成的最终结果,这个结果比仅仅训练一个模型要好。例如,假设数据由两种不同的模式组成,一种是线性模式,另一种是二次模式。然后使用单个分类器可能会过拟合或产生不准确的结果。 你可以阅读this tutorial来了解更多关于合奏、打包和增强的知识。你知道吗

假设红色和蓝色是你能找到的最好的模型。你知道吗

一个在1区效果更好,另一个在2区效果更好。你知道吗

现在您还将训练分类器来预测要使用哪个模型,即,您将尝试学习这两个区域。你知道吗

在外面做验证。如果让两个内部模型访问元模型看不到的数据,则可能会过度拟合。你知道吗

1)“但是我还是不能理解,为什么不训练所有的训练数据就可以避免这个问题呢?”-我们将保留这些数据用于验证目的,就像我们在K-fold中所做的那样

2)“那么我是否也应该根据所有训练数据训练M-base学习者,以便输入预测?”-如果你给所有的学习者提供相同的数据,那么所有学习者的输出都是相同的,创建这些数据是没有用的。因此,我们将为每个学员提供一部分数据。你知道吗

相关问题 更多 >