运行置换重要性时，我们是否对测试集的列进行置换？

0 投票

0 回答

10 浏览

数据工程师

提问于 2025-04-12 06:13

我一直在看关于排列重要性的文档和相关教程，但似乎没有人能清楚地说明他们到底在排列什么。

为了更清楚，我想确认一下步骤是否如下：

把数据集分成训练集（X_train）、验证集（X_val）和测试集（X_test）
在训练集上训练模型，用验证集来找出最佳的训练轮次
在测试集上运行训练好的模型，并记录我们要测量的指标
对测试集中的某个特征进行排列，然后在这个排列过的测试集上运行同样的模型
记录同样的指标，并比较这两个结果
对每个特征重复这个过程，不改变模型。

附带问题：是否值得在每次重复这个排列过程时，改变训练集、验证集和测试集。我知道结果模型会不同，但我想更全面地了解这个固定超参数的模型在不同数据集上的表现，因为如果测试集不变，可能会影响某些特征的重要性评估。

特征重要性排列重要性模型评估数据集划分训练集验证集测试集超参数调优

0 个回答

暂无回答

撰写回答