我正在做一个生物医学图像分割任务。我从医院获得的数据被分为训练集、验证集和测试集。但我对分裂感到困惑
数据由来自不同患者的图像组成,每个患者从3D图像中获取2~3个2D切片。对于一名患者,他或她的2~3个切片彼此相邻或接近,这意味着这些切片只有肉眼几乎看不到的非常小的差异。将这2~3个切片分为训练集、测试集和验证集。因此,训练集、测试集和验证集的比例接近1:1:1
然而,我发现医学图像数据集的分割主要基于患者。三组是不同患者的切片,而不是像医院那样将同一患者的切片分为三组。我举个例子
示例
让i_j成为第i个患者的第j个切片,i_j&;i_j+1是相邻的切片。所有切片编号如下所示:
1_1 1_2 1_3 / 2_1 2_2 2_3 / 3_1 3_2 3_3 / 4_1 4_2 / 5_1 5_2
医院道路上可能出现的分裂:
Train: 1_1 2_1 3_1 4_1 5_1 Val: 1_2 2_2 3_2 4_2 Test: 1_3 2_3 3_3 5_2
在我的道路上可能出现分裂:
Train: 1_1 1_2 1_3 2_1 2_2 2_3 4_1 4_2 Val: 3_1 3_2 3_3 Test: 5_1 5_2
我认为在第一种情况下,训练集、验证集和测试集实际上太相似了。这将使验证集和训练集的准确率较高,但模型的泛化能力较差那么哪种拆分方法是正确的?还是两者都可以?
你的方式绝对是正确的。医院的方法将导致大规模的过度装修,原因正是您指定的
相关问题 更多 >
编程相关推荐