我有一个篮球统计数据集656个因素。我用一个逻辑回归分类器来预测赢家和输家(1队赢或2队赢),从2队的数据中减去1队的数据。除了标准化之外,我如何提高测试集的精确度,使其更接近训练集的精确度,或者仅仅提高一般的精确度?你知道吗
我认为标准化是一个可能的解决方案,但由于我正在做统计的差异,大多数值都在相同的范围内
X = final_data_array[:,:656]
Y = final_data_array[:,656]
X_train, X_test, Y_train, Y_test = train_test_split(X, Y)
logistic = LogisticRegression(solver='lbfgs', max_iter=4000000, multi_class='multinomial').fit(X_train, Y_train)
print(logistic.score(X_test, Y_test))
print(logistic.score(X_train, Y_train))
0.7818791946308725
0.9069506726457399
您可以尝试对数据集进行一些特征工程,除此之外,还可以规范化数据集并检查准确性。我还建议您尝试其他分类算法,如xgbclassifier、random forest classifier等
相关问题 更多 >
编程相关推荐