为什么这个决策树在每一步的值总和不等于样本数？

from sklearn.model_selection import train_test_split from sklearn.datasets import make_moons from sklearn.ensemble import BaggingClassifier from sklearn import tree from sklearn.tree import DecisionTreeClassifier from sklearn.tree import export_graphviz from graphviz import Source X, y = make_moons(n_samples=500, noise=0.30, random_state=42) X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42) bag_clf = BaggingClassifier( DecisionTreeClassifier(), n_estimators=500, max_samples=100, bootstrap=True, n_jobs=-1) bag_clf.fit(X_train, y_train) Source(tree.export_graphviz(bag_clf.estimators_[0], out_file=None))

2条回答

网友

1楼 · 编辑于 2024-04-23 19:09:55

有趣的发现。你知道吗

我仔细研究了一下，发现在导出graphviz对象时，引导开关在proporty=True开关上。由于同一样本有可能多次通过决策树，所以它用百分比表示。如果bootstrapping=False，那么样本只经过一次，因此可以表示为每个类上的样本计数。你知道吗

网友

2楼 · 编辑于 2024-04-23 19:09:55

接得好。你知道吗

额外的引导示例似乎包含在value中，但不包含在samples中；逐字重复代码，但更改为bootstrap=False可以消除差异：

相关问题更多 >

编程相关推荐

热门问题

热门文章