目标检测中输入图像尺寸估计中的感受野

2024-04-28 08:29:30 发布

您现在位置:Python中文网/ 问答频道 /正文

我在tensorflow中使用了更快的RCNN和Resnet 101。利用从寻找blogsdiscussions的最佳参数中收集到的一些信息,我明白为了获得更好的精确度,我应该考虑图像的输入大小、bbox的相对大小以及模型的感受野。你知道吗

如果我弄错了,请纠正我,但后者是在每个模型的体系结构中定义的。所以,在herehere我发现Resnet 101的感受野是1027。这是否意味着图像大小应该接近这个值才能被充分利用?这似乎非常接近git中配置示例文件中预定义的max_dimension: 1024。唯一不同的是faster_rcnn_resnet101_kitti.config,因为图像太“拉伸”。在这种情况下,它们似乎并不为比1027更大而烦恼。你知道吗

我的数据集包含不同大小的图像以及不同大小的bboxes。我的策略是在任何情况下都尝试创建类似大小的bbox:

  1. 带有小bbox的图像将被裁剪,以从单个bbox创建更多平铺/拼接图像(有些bbox被拆分的缺点),以便输入图像中的最终bbox大于某个大小(例如30x30)
  2. 带有较大bbox的图像将被填充以创建较小bbox。你知道吗

那么,我应该考虑我的模型的感受野吗?你知道吗


Tags: 模型图像信息利用参数here体系结构tensorflow