我们用于建模的样本集是从一个大的整个数据集中取样的。通常在使用logistic回归进行记分卡模型时,我们会将样本集和整个数据集的好样本与坏样本之比的变化作为因子或权重。在
我认为,如果我们考虑将模型应用于整个数据集,那么在使用lightGBM时,这个因素会影响到树的分割。就像我们有一个叫做“年龄”的功能。如果我们不考虑权重,它应该在32上拆分,但是权重说明在整个数据集或总体中,更多的样本小于25,拆分应该是28。在
在lightGBM中,我发现了两种可能的方法:将is_unbalancet设置为False,并将scale_pos_weight设置为权重,或者将is_uportance设置为True,并将权重作为数组传递到fit函数中的参数“sample_weight”。在
我不知道哪一个是有效的,可以达到我们的目标,考虑样品重量轻GBM
目前没有回答
相关问题 更多 >
编程相关推荐