在下面的xgboost模型树图中，“leaf”的值是什么意思？

网友

1楼 · 编辑于 2024-05-23 20:03:52

你是对的。这些与叶节点相关联的概率值表示给定树的特定分支到达叶节点的条件概率。树枝可以表示为一组规则。例如，@user1808924在他的answer中提到；一个规则表示树模型最左边的分支。

因此，简言之：树可以线性化为决策规则，其中结果是叶节点的内容，路径上的条件在if子句中形成一个连接。一般来说，规则的形式如下：

if condition1 and condition2 and condition3 then outcome.

决策规则可以通过构造右侧目标变量的关联规则来生成。它们还可以表示temporal或causal关系。

网友

2楼 · 编辑于 2024-05-23 20:03:52

对于具有2个类{0,1}的分类树，叶节点的值表示类1的原始分数。利用logistic函数可以将其转换为概率得分。下面的计算以最左边的叶子为例。

1/(1+np.exp(-1*0.167528))=0.5417843204057448

这意味着，如果一个数据点最终被分布到这个叶子上，那么这个数据点成为类1的概率是0.5417843204057448。

网友

3楼 · 编辑于 2024-05-23 20:03:52

属性leaf是预测值。换言之，如果树模型的计算结束于该终端节点（也称为叶节点），则这是返回的值。

在伪代码（树模型最左边的分支）中：

if(f1 < 127.5){
  if(f7 < 28.5){
    if(f5 < 45.4){
      return 0.167528f;
    } else {
      return 0.05f;
    }
  }
}