运行置换重要性时,我们是否对测试集的列进行置换?

0 投票
0 回答
10 浏览
提问于 2025-04-12 06:13

我一直在看关于排列重要性的文档和相关教程,但似乎没有人能清楚地说明他们到底在排列什么。

为了更清楚,我想确认一下步骤是否如下:

  1. 把数据集分成训练集(X_train)、验证集(X_val)和测试集(X_test)

  2. 在训练集上训练模型,用验证集来找出最佳的训练轮次

  3. 在测试集上运行训练好的模型,并记录我们要测量的指标

  4. 对测试集中的某个特征进行排列,然后在这个排列过的测试集上运行同样的模型

  5. 记录同样的指标,并比较这两个结果

  6. 对每个特征重复这个过程,不改变模型。

附带问题:是否值得在每次重复这个排列过程时,改变训练集、验证集和测试集。我知道结果模型会不同,但我想更全面地了解这个固定超参数的模型在不同数据集上的表现,因为如果测试集不变,可能会影响某些特征的重要性评估。

0 个回答

暂无回答

撰写回答