我在tensorflow中使用了更快的RCNN和Resnet 101。利用从寻找blogs或discussions的最佳参数中收集到的一些信息,我明白为了获得更好的精确度,我应该考虑图像的输入大小、bbox的相对大小以及模型的感受野。你知道吗
如果我弄错了,请纠正我,但后者是在每个模型的体系结构中定义的。所以,在here和here我发现Resnet 101的感受野是1027。这是否意味着图像大小应该接近这个值才能被充分利用?这似乎非常接近git中配置示例文件中预定义的max_dimension: 1024
。唯一不同的是faster_rcnn_resnet101_kitti.config,因为图像太“拉伸”。在这种情况下,它们似乎并不为比1027更大而烦恼。你知道吗
我的数据集包含不同大小的图像以及不同大小的bboxes。我的策略是在任何情况下都尝试创建类似大小的bbox:
那么,我应该考虑我的模型的感受野吗?你知道吗
目前没有回答
相关问题 更多 >
编程相关推荐