运行置换重要性时,我们是否对测试集的列进行置换?
我一直在看关于排列重要性的文档和相关教程,但似乎没有人能清楚地说明他们到底在排列什么。
为了更清楚,我想确认一下步骤是否如下:
把数据集分成训练集(X_train)、验证集(X_val)和测试集(X_test)
在训练集上训练模型,用验证集来找出最佳的训练轮次
在测试集上运行训练好的模型,并记录我们要测量的指标
对测试集中的某个特征进行排列,然后在这个排列过的测试集上运行同样的模型
记录同样的指标,并比较这两个结果
对每个特征重复这个过程,不改变模型。
附带问题:是否值得在每次重复这个排列过程时,改变训练集、验证集和测试集。我知道结果模型会不同,但我想更全面地了解这个固定超参数的模型在不同数据集上的表现,因为如果测试集不变,可能会影响某些特征的重要性评估。
0 个回答
暂无回答