为什么好的本地验证会在Kaggle竞争中给出不好的分数?

2024-04-23 16:07:26 发布

您现在位置:Python中文网/ 问答频道 /正文

这可能是一个普遍的问题。你知道吗

我想在卡格尔比赛中建立一个预测模型。我使用了一些传统的方法,比如Xgboost Lightgbm和Random Forest。我试着把火车的数据分成7:3进行训练和验证。你知道吗

X_train, X_vali, Y_train, Y_vali = cross_validation.train_test_split\
     (x_train, y_train, test_size=0.3, random_state=42);

然后建立模型,测试参数是否最佳。你知道吗

model = Model.fit(x_train,y_train)
print(log_loss(y_true=Y_vali,y_pred=model.predict_proba(X_vali)))

一切都很顺利,但我在最后提交的报告中得分很低。似乎更糟糕的验证结果甚至在Kaggle的内核上得到了更好的分数(我想这并不是一个过度拟合的问题)。我不知道如何优化我的模型,因为Kaggle的结果似乎不可预测。你知道吗

有人知道为什么会发生这个问题吗?你知道吗


Tags: 数据方法模型testmodeltrainrandom传统