语义分割中的数据集分割

2024-06-11 08:18:30 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在做一个生物医学图像分割任务。我从医院获得的数据被分为训练集、验证集和测试集。但我对分裂感到困惑

数据由来自不同患者的图像组成,每个患者从3D图像中获取2~3个2D切片。对于一名患者,他或她的2~3个切片彼此相邻或接近,这意味着这些切片只有肉眼几乎看不到的非常小的差异。将这2~3个切片分为训练集、测试集和验证集。因此,训练集、测试集和验证集的比例接近1:1:1

然而,我发现医学图像数据集的分割主要基于患者。三组是不同患者的切片,而不是像医院那样将同一患者的切片分为三组。我举个例子

示例

让i_j成为第i个患者的第j个切片,i_j&;i_j+1是相邻的切片。所有切片编号如下所示:

1_1 1_2 1_3 / 2_1 2_2 2_3 / 3_1 3_2 3_3 / 4_1 4_2 / 5_1 5_2

医院道路上可能出现的分裂:

Train: 1_1 2_1 3_1 4_1 5_1 Val: 1_2 2_2 3_2 4_2 Test: 1_3 2_3 3_3 5_2

在我的道路上可能出现分裂:

Train: 1_1 1_2 1_3 2_1 2_2 2_3 4_1 4_2 Val: 3_1 3_2 3_3 Test: 5_1 5_2

我认为在第一种情况下,训练集、验证集和测试集实际上太相似了。这将使验证集和训练集的准确率较高,但模型的泛化能力较差那么哪种拆分方法是正确的?还是两者都可以?


Tags: 数据test图像患者切片trainval差异