单个数据点的形状，而不是整个数据集的平均预测

2条回答

网友

1楼 · 编辑于 2024-06-16 14:03:16

对。根据原始文件中的数学公式，SHAP值是“特征对实际预测和平均预测之间差异的贡献”。平均预测（有时称为“基准值”或“预期模型输出”）与您提供的背景数据集相关
对。您可以使用一个示例的背景数据集。背景数据集的常见选择是训练数据、一个样本作为参考样本，甚至是一个全零的数据集。来自author：“我建议使用单个背景数据点、真实背景的一个小随机子集，或者为了获得最佳性能，使用一组k-中值（根据每个中值所代表的训练点的数量加权）来简洁地代表背景。”

下面是支持我对这两个问题的回答以及如何完成2的更多细节。那么，“预期模型输出”为什么依赖于背景数据集？为了回答这些问题，让我们来了解SHAP是如何完成的：

步骤1：我们创建一个shap解释程序，提供两件事：一个经过训练的预测模型和一个背景数据集。shap从背景数据集创建一个联盟的人工数据集。每个联盟是一个二进制向量，表示特征组合的排列，1表示存在的特征，0表示不存在的特征。因此，有2^M个可能的组合用于M个特征

explainer = shap.KernelExplainer(f, background_X)

步骤2：我们提供样品我们要为其计算SHAP值。SHAP填充此人工数据集的值，以便当前特征采用该样本的原始值，缺失特征用背景数据集的值填充。然后为该联盟生成预测。如果背景数据集有n行，则缺失特征为filled n次，n个预测的平均值用作此联盟的预测。如果背景数据集只有一个样本，则缺少的特征将用该样本的值填充

shap_values = explainer.shap_values(test_X)

因此，SHAP值相对于背景数据集的平均预测

网友

2楼 · 编辑于 2024-06-16 14:03:16

是的，但“平均”的定义很重要。如果您提供一个“背景”数据集，您的解释将根据该背景而不是整个数据集进行计算。就背景的“相对平均值”而言，我们需要理解shap值是所有可能联盟的平均边际贡献。因此，就形状值而言，您修复了多个联盟，其余的是“是”，平均值。这允许对模型拟合一次，然后通过只训练过一次的模型传递不同的联盟（剩余的平均值）。这就是SHAP时间节约的来源。
如果您对更多内容感兴趣，可以访问原始paper或此blog
对。对于二进制分类，您提供一个数据行作为背景，例如，提供另一个类的数据行以进行解释，并查看更改的类输出的特征和更改程度

相关问题更多 >

编程相关推荐

热门问题

热门文章

单个数据点的形状，而不是整个数据集的平均预测

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >