Scikit在测试中学习高精度

def makeSample(df): test_size = len(df.index) * 30 / 100 rows = random.sample(df.index, test_size) testing = df.ix[rows] training = df.drop(rows) print "Number of testing set %s\n" % len(testing.index) print "Number of training set %s\n" % len(training.index) return training, testing def split9Folds(df): for x in xrange(1, 10): training, testing = makeSample(df) training.to_csv(r'split/training_%s.csv' % x, header=None, index=None, sep=',', mode='w') testing.to_csv(r'split/testing_%s.csv' % x, header=None, index=None, sep=',', mode='w')

t_file = "split/testing_9.csv" t_df = pd.read_csv(t_file, sep=',', header=None) t_df.columns = xrange(1, len(t_df.columns) + 1) t_df.drop(t_df.columns[[4]], axis=1, inplace=True) t_features_list = t_df[features_column] t_target_list = t_df[target_column] score = clf.score(t_features_list, t_target_list) print score

1条回答

网友

1楼 · 发布于 2024-04-25 17:11:02

也许你混淆了决策树（单决策树）和一些集成元估计器（许多分类器，如决策树）的概念。我看不出你的成绩有什么问题。没有任何限制，决策树可以始终完美地分离数据集。因为它可以近似任何决策边界。你的案子就是这样。对DecisonTree的唯一限制是-min_samples_split=20。但与数据集大小（10万个样本）相比，20几乎算不上什么。在

如果你想建立更多的限制（通用）树-你可以玩最大深度，最小采样数分裂（增加它），最小采样数叶，etc。在

相关问题更多 >

编程相关推荐

热门问题

热门文章