网格搜索的交叉验证返回比defau更糟糕的结果

from sklearn import svm, grid_search from sklearn.ensemble import GradientBoostingClassifier gbc = GradientBoostingClassifier(verbose=1) parameters = {'learning_rate':[0.01, 0.05, 0.1, 0.5, 1], 'min_samples_split':[2,5,10,20], 'max_depth':[2,3,5,10]} clf = grid_search.GridSearchCV(gbc, parameters) t0 = time() clf.fit(X_crossval, labels) print "Gridsearch time:", round(time() - t0, 3), "s" print clf.best_params_ # The output is: {'min_samples_split': 2, 'learning_rate': 0.01, 'max_depth': 2}

2条回答

网友

1楼 · 编辑于 2024-05-12 22:55:28

在同一个数据集上测试参数和/或特性选择时，对整个数据集运行交叉验证肯定会导致问题。看来这至少是问题的一部分。对数据子集运行CV以优化参数，并保留保留一个保留集用于测试，这是一个很好的实践。在

假设您使用的是^{}数据集（即注释链接中的示例中使用的数据集），下面是一个示例，说明如何通过使用^{}创建一个保留集来影响GridSearchCV参数优化：

from sklearn import datasets
from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import GradientBoostingClassifier

iris = datasets.load_iris()
gbc = GradientBoostingClassifier()
parameters = {'learning_rate':[0.01, 0.05, 0.1, 0.5, 1], 
              'min_samples_split':[2,5,10,20], 
              'max_depth':[2,3,5,10]}

clf = GridSearchCV(gbc, parameters)
clf.fit(iris.data, iris.target)

print(clf.best_params_)
# {'learning_rate': 1, 'max_depth': 2, 'min_samples_split': 2}

现在使用随机训练子集重复网格搜索：

^{pr2}$

我发现这两种方法的分类精度都要高得多，这让我觉得您可能使用了不同的数据，但是在维护保持集的同时执行参数选择的基本点在这里演示。希望有帮助。在

网友

2楼 · 编辑于 2024-05-12 22:55:28

您也可以使用kfords cross_验证器 https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.KFold.html

from sklearn import datasets
from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.model_selection import KFold

iris = datasets.load_iris()
gbc = GradientBoostingClassifier()
parameters = {'learning_rate':[0.01, 0.05, 0.1, 0.5, 1], 
          'min_samples_split':[2,5,10,20], 
          'max_depth':[2,3,5,10]}

cv_test= KFold(n_splits=5)
clf = GridSearchCV(gbc, parameters,cv=cv_test)
clf.fit(iris.data, iris.target)

print(clf.best_params_)

相关问题更多 >

编程相关推荐

热门问题

热门文章