语义分割中的数据集分割

2024-06-11 08:18:30 发布

男 | 程序猿一只，喜欢编程写python代码。

我正在做一个生物医学图像分割任务。我从医院获得的数据被分为训练集、验证集和测试集。但我对分裂感到困惑

数据由来自不同患者的图像组成，每个患者从3D图像中获取2~3个2D切片。对于一名患者，他或她的2~3个切片彼此相邻或接近，这意味着这些切片只有肉眼几乎看不到的非常小的差异。将这2~3个切片分为训练集、测试集和验证集。因此，训练集、测试集和验证集的比例接近1:1:1

然而，我发现医学图像数据集的分割主要基于患者。三组是不同患者的切片，而不是像医院那样将同一患者的切片分为三组。我举个例子

示例

让i_j成为第i个患者的第j个切片，i_j&；i_j+1是相邻的切片。所有切片编号如下所示：

1_1 1_2 1_3 / 2_1 2_2 2_3 / 3_1 3_2 3_3 / 4_1 4_2 / 5_1 5_2

医院道路上可能出现的分裂：

Train: 1_1 2_1 3_1 4_1 5_1 Val: 1_2 2_2 3_2 4_2 Test: 1_3 2_3 3_3 5_2

在我的道路上可能出现分裂：

Train: 1_1 1_2 1_3 2_1 2_2 2_3 4_1 4_2 Val: 3_1 3_2 3_3 Test: 5_1 5_2

我认为在第一种情况下，训练集、验证集和测试集实际上太相似了。这将使验证集和训练集的准确率较高，但模型的泛化能力较差那么哪种拆分方法是正确的？还是两者都可以？

Tags：数据 test 图像患者切片 train val 差异

1条回答

网友

1楼 · 发布于 2024-06-11 08:18:30

你的方式绝对是正确的。医院的方法将导致大规模的过度装修，原因正是您指定的