为什么好的本地验证会在Kaggle竞争中给出不好的分数？

2024-04-23 16:07:26 发布

男 | 程序猿一只，喜欢编程写python代码。

这可能是一个普遍的问题。你知道吗

我想在卡格尔比赛中建立一个预测模型。我使用了一些传统的方法，比如Xgboost Lightgbm和Random Forest。我试着把火车的数据分成7:3进行训练和验证。你知道吗

X_train, X_vali, Y_train, Y_vali = cross_validation.train_test_split\
     (x_train, y_train, test_size=0.3, random_state=42);

然后建立模型，测试参数是否最佳。你知道吗

model = Model.fit(x_train,y_train)
print(log_loss(y_true=Y_vali,y_pred=model.predict_proba(X_vali)))

一切都很顺利，但我在最后提交的报告中得分很低。似乎更糟糕的验证结果甚至在Kaggle的内核上得到了更好的分数（我想这并不是一个过度拟合的问题）。我不知道如何优化我的模型，因为Kaggle的结果似乎不可预测。你知道吗

有人知道为什么会发生这个问题吗？你知道吗

Tags：数据方法模型 test model train random 传统

0条回答

目前没有回答