带有单独训练和验证集的GridSeachCV错误地考虑了最终选择最佳模型的训练结果

import numpy as np import pandas as pd import xgboost # Import datasets from edge node data_train = pd.read_csv('data.csv') data_valid = pd.read_csv('data_valid.csv') # Specify 'data_test' as validation set for the Grid Search below from sklearn.model_selection import PredefinedSplit X, y, train_valid_indices = train_valid_merge(data_train, data_valid) train_valid_merge_indices = PredefinedSplit(test_fold=train_valid_indices) # Define my own scoring function to see # if it is called for both the training and the validation sets from sklearn.metrics import make_scorer custom_scorer = make_scorer(score_func=my_precision, greater_is_better=True, needs_proba=False) # Instantiate xgboost from xgboost.sklearn import XGBClassifier classifier = XGBClassifier(random_state=0) # Small parameters' grid ONLY FOR START # I plan to use way bigger parameters' grids parameters = {'n_estimators': [150, 175, 200]} # Execute grid search and retrieve the best classifier from sklearn.model_selection import GridSearchCV classifiers_grid = GridSearchCV(estimator=classifier, param_grid=parameters, scoring=custom_scorer, cv=train_valid_merge_indices, refit=True, n_jobs=-1) classifiers_grid.fit(X, y)

1条回答

网友

1楼 · 发布于 2024-04-25 13:02:23

I have one distinct training set and one distinct validation set. I want to train my model on the training set and find the best hyperparameters based on its performance on my distinct validation set.

那么您肯定不需要PredefinedSplit也不需要GridSearchCV：

import pandas as pd
from xgboost.sklearn import XGBClassifier
from sklearn.metrics import precision_score

# Import datasets from edge node
data_train = pd.read_csv('data.csv')
data_valid = pd.read_csv('data_valid.csv')

# training data & labels:
X = data_train.iloc[:, :-1].values
y = data_train.iloc[:, -1].values   

# validation data & labels:
X_valid = data_valid.iloc[:, :-1].values
y_true = data_valid.iloc[:, -1].values 

n_estimators = [150, 175, 200]
perf = []

for k_estimators in n_estimators:
    clf = XGBClassifier(n_estimators=k_estimators, random_state=0)
    clf.fit(X, y)

    y_predict = clf.predict(X_valid)
    precision = precision_score(y_true, y_predict, average='binary')
    perf.append(precision)

并且perf将包含您在验证集中各自分类器的性能。。。在

相关问题更多 >

编程相关推荐

热门问题

热门文章