我在.tsv文件中有一组可用的数据here。我写了几个分类来决定一个网站是昙花一现还是常青。在
现在,我想让他们变得更好。我从与人交谈中知道,我的分类器“过度拟合”了数据;我要寻找的是一种可靠的方法来证明这一点,以便下次编写分类器时能够运行测试,看看我是过度拟合还是不拟合。在
最好的办法是什么?我愿意接受所有的建议!在
我花了几个星期的时间在google上搜索了这个话题,但没有找到一个规范的或可信的方法来有效地做到这一点,所以任何回应都将受到赞赏。我将悬赏给这个问题。在
编辑:
假设我的分类师吐出一个.tsv包含:
the website UID<tab>the likelihood it is to be ephemeral or evergreen, 0 being ephemeral, 1 being evergreen<tab>whether the page is ephemeral or evergreen
检查分类器“效率”的最简单方法是执行交叉验证:
另一个更重要的方面是,如果你的分类器使用任何参数、一些常数、阈值等,这些参数不是经过训练的,而是由用户提供的,那么在上述过程中,你不能只选择给出最佳结果的参数。这个必须在“除了i'th以外的所有批次上训练分类器”中以某种方式自动化。换句话说,您不能使用测试数据来拟合模型中的任何参数。一旦这样做,有四种可能的结果:
人们有很多方法来处理过度合身的问题:
相关问题 更多 >
编程相关推荐