训练网络时如何防止图像数据的冗余?

2024-04-25 10:17:33 发布

您现在位置:Python中文网/ 问答频道 /正文

我有大量不同大小的图像。你知道吗

我想确认一下 -我的训练不是多余的 -我的测试集中的数据都不同(与测试集中的其他数据和训练集中的数据不同)

我所说的“不冗余”,基本上是指检查一个图像是否是另一个图像的裁剪版本(或者最大程度上是同一个图像)。你知道吗

当你在网上工作的时候,你一般是如何处理这种情况的? 有什么准备好了吗?你知道吗

谢谢你的帮助

K


Tags: 数据图像版本情况程度
2条回答

你要做的事:

将第一个图像添加到集合(a)中,然后逐个解析剩余图像,只将那些不同于(a)中所有图像的图像添加到(a)中。一直迭代到最后一个图像。现在使用集合(A)图像进行训练和测试,即80%的(A)图像用于训练,其余图像用于测试

如何确定:冗余?

简单地说,两个缩放正方形图像是相同的或冗余的,因为它们都有四个直角角(或特征)。如果一个正方形图像被裁剪,那么它也将至少有2个匹配角(或匹配特征)。你知道吗

因此,为了确定冗余图像,您需要找到图像的局部特征,然后计算有多少特征匹配。你知道吗

这可以通过SIFT(scale invariant feature transform)和其他技术(如SURF local feature detector)来实现。使用this文章获得基本理解。你知道吗

好像http://geeqie.sourceforge.net/在耍把戏

谢谢@ThomasPinetz

K

相关问题 更多 >