目标检测中输入图像尺寸估计中的感受野

2024-04-28 08:29:30 发布

男 | 程序猿一只，喜欢编程写python代码。

我在tensorflow中使用了更快的RCNN和Resnet 101。利用从寻找blogs或discussions的最佳参数中收集到的一些信息，我明白为了获得更好的精确度，我应该考虑图像的输入大小、bbox的相对大小以及模型的感受野。你知道吗

如果我弄错了，请纠正我，但后者是在每个模型的体系结构中定义的。所以，在here和here我发现Resnet 101的感受野是1027。这是否意味着图像大小应该接近这个值才能被充分利用？这似乎非常接近git中配置示例文件中预定义的max_dimension: 1024。唯一不同的是faster_rcnn_resnet101_kitti.config，因为图像太“拉伸”。在这种情况下，它们似乎并不为比1027更大而烦恼。你知道吗

我的数据集包含不同大小的图像以及不同大小的bboxes。我的策略是在任何情况下都尝试创建类似大小的bbox：

带有小bbox的图像将被裁剪，以从单个bbox创建更多平铺/拼接图像（有些bbox被拆分的缺点），以便输入图像中的最终bbox大于某个大小（例如30x30）
带有较大bbox的图像将被填充以创建较小bbox。你知道吗

那么，我应该考虑我的模型的感受野吗？你知道吗

Tags：模型图像信息利用参数 here 体系结构 tensorflow

0条回答

目前没有回答

目标检测中输入图像尺寸估计中的感受野

相关问题更多 >

编程相关推荐

热门问题

热门文章

目标检测中输入图像尺寸估计中的感受野

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >