XgBoost:y中填充最少的类只有1个成员,即

2024-05-14 17:38:24 发布

您现在位置:Python中文网/ 问答频道 /正文

我在sklearn上使用Xgboost实现来进行kaggle的竞争。 但是,我收到这条“警告”消息:

$python脚本1.py /home/sky/private/virtualenv15.0.1dev/myVE/local/lib/python2.7/site packages/sklearn/crossôu validation.py:516:

警告:y中填充最少的类只有1个成员,这太少了。任何类别的最小标签数不能小于n_folds=3。 %(最小标签,自行折叠),警告)

另一个关于stackoverflow的问题是: “请检查每个类至少有3个样本,以便在k==3的情况下进行分层交叉验证(我认为这是GridSearchCV用于分类的默认CV)。”

好吧,我没有每堂课至少3个样本。

所以我的问题是:

a)有哪些选择?

b)为什么我不能使用交叉验证?

c)我可以用什么代替?

...
param_test1 = {
    'max_depth': range(3, 10, 2),
    'min_child_weight': range(1, 6, 2)
}

grid_search = GridSearchCV(

estimator=
XGBClassifier(
    learning_rate=0.1,
    n_estimators=3000,
    max_depth=15,
    min_child_weight=1,
    gamma=0,
    subsample=0.8,
    colsample_bytree=0.8,
    objective='multi:softmax',
    nthread=42,
    scale_pos_weight=1,
    seed=27),

    param_grid=param_test1, scoring='roc_auc', n_jobs=42, iid=False, cv=None, verbose=1)
...

grid_search.fit(train_x, place_id)

参考资料:

One-shot learning with scikit-learn

Using a support vector classifier with polynomial kernel in scikit-learn


Tags: py警告paramrange标签sklearnmin交叉
1条回答
网友
1楼 · 发布于 2024-05-14 17:38:24

如果目标/类只有一个样本,那么对于任何模型来说,这都太少了。您可以做的是获得另一个数据集,最好是尽可能平衡,因为大多数模型在平衡集中表现得更好。

如果你不能有另一个数据集,你将不得不发挥你所拥有的。我建议你把有孤独目标的样本去掉。所以你会有一个模型,不包括这个目标。如果这不符合您的要求,您需要一个新的数据集。

相关问题 更多 >

    热门问题