我想根据不同大小的训练和验证数据集来比较模型性能
我希望能够构建一个循环,使用10k train和1k val数据训练我的pytorch模型,并线性增加数据集大小,直到100k train和10k val数据集大小
我还需要考虑目标类,因此以某种方式实现分层拆分。我不知道在哪里以及如何实现这一点
有人知道如何在我的dataset类定义中轻松实现这一点吗? 我能在这里实现它吗
def __len__(self):
return len(self.inputFolderDataset.imgs)
我考虑另外定义一个数组“size=[1000020000…100000]”,以进行迭代
提前谢谢你
为什么不这样做:
输出:
我会继续保持验证集不变。分离验证数据,然后仅改变训练数据的大小,以进行苹果对苹果的比较
编辑: 对于分层,可以使用来自
sklearn.model_selection
的train_test_split
。定义数据集的策略可以是将training_data
(complete)、labels
和所需大小作为构造函数参数相关问题 更多 >
编程相关推荐