如何理解二元分类问题的Shapley值？

import shap import lightgbm as lgb params = {'object':'binary, ...} gbm = lgb.train(params, lgb_train, num_boost_round=300) e = shap.TreeExplainer(gbm) shap_values = e.shap_values(X) shap.summary_plot(shap_values[0][:, interested_feature], X[interested_feature])

import lightgbm as lgb import shap lgb_train = lgb.Dataset(x_train, y_train, free_raw_data=False) lgb_eval = lgb.Dataset(x_val, y_val, free_raw_data=False) params = { 'boosting_type': 'gbdt', 'objective': 'binary', 'metric': 'binary_logloss', 'num_leaves': 70, 'learning_rate': 0.005, 'feature_fraction': 0.7, 'bagging_fraction': 0.7, 'bagging_freq': 10, 'verbose': 0, 'min_data_in_leaf': 30, 'max_bin': 128, 'max_depth': 12, 'early_stopping_round': 20, 'min_split_gain': 0.096, 'min_child_weight': 6, } gbm = lgb.train(params, lgb_train, num_boost_round=300, valid_sets=lgb_eval, ) e = shap.TreeExplainer(gbm) shap_values = e.shap_values(X) shap.summary_plot(shap_values[0][:, interested_feature], X[interested_feature])

1条回答

网友

1楼 · 发布于 2024-05-16 14:11:11

让我们在乳腺癌数据集上运行LGBMClassifier：

from sklearn.datasets import load_breast_cancer
from lightgbm import LGBMClassifier
from shap import TreeExplainer, summary_plot
X, y = load_breast_cancer(return_X_y=True, as_frame=True)
model = LGBMClassifier().fit(X,y)

exp = TreeExplainer(model)
sv = exp.shap_values(X)
summary_plot(sv[1], X, max_display=3)

summary_plot(sv[0], X, max_display=3)

您将从本练习中获得什么：

类0和1的形状值是对称的。为什么？因为如果一个特征对类1贡献了一定的量，它同时也会以相同的量降低成为类0的概率。所以一般来说，对于二元分类来说，查看sv[1]就足够了
worst area的低值有助于类1，反之亦然。这种关系不是严格的线性关系，特别是对于类0，它需要用非线性模型（树、NN等）对这种关系进行建模
这同样适用于其他描绘的特征

希望这有帮助

我猜你的第二个情节来自一个预测单个类概率的模型，比如说1，但是如果没有看到整个代码，很难判断

相关问题更多 >

编程相关推荐

热门问题

热门文章