python中rgb图像相似性的度量

2024-04-26 12:13:03 发布

您现在位置:Python中文网/ 问答频道 /正文

我有两个相同大小的rgb图像,我想计算一个相似性度量。从欧几里得思想出发:

import scipy.spatial.distance as dist
import cv2

im1 = cv2.imread("im1.jpg")
im2 = cv2.imread("im2.jpg")

>> im1.shape
(820, 740, 3)

>> dist.euclidean(im1,im2)

ValueError: Input vector should be 1-D.

我知道dist.euclidean需要一个一维数组,im1和{}是三维的,但是有没有一个函数可以处理三维数组,或者是否可以将im1和{}转换成一维数组来保存图像中的信息?在


Tags: 图像import度量distrgbscipy数组相似性
3条回答

你可以试试

import scipy.spatial.distance as dist
import cv2
import numpy as np

im1 = cv2.imread("im1.jpg")
im2 = cv2.imread("im2.jpg")

dist.euclidean(im1.flatten(), im2.flatten())

您可以对这两个图像使用“重塑”功能将它们从3D转换为1D

import scipy.spatial.distance as dist
import cv2

im1 = cv2.imread("im1.jpg")
im2 = cv2.imread("im2.jpg")

im1.reshape(1820400)
im2.reshape(1820400)

dist.euclidean(im1,im2)

灰度解(?)

(下面讨论了您对“保留图像中的信息”功能的评论)

在我看来,你也许可以用灰度图像而不是RGB图像来解决这个问题。我知道我在做假设,但这是个想法。在

我将尝试一个与代码相关的简单示例,然后给出一个使用2D离散傅立叶变换的图像相似性度量示例,该变换使用灰度转换。DFT分析将有自己的部分

(如果你在过程中看到这个,我很抱歉。我只是想确保我的工作得以保存。)

基于我的假设,我将尝试你的方法来处理一些RGB图像,然后看看是否可以通过转换为灰度来解决这个问题。如果用灰度来解决这个问题,我们可以通过使用所有三个通道的组合来找到图像的相似性,从而分析灰度解决方案带来的信息损失量,每个通道分别进行比较。在

方法

确保我有所有的库/包/任何你想叫它们的东西。在

> python -m pip install opencv-python
> python -m pip install scipy
> python -m pip install numpy

注意,在这个试验中,我使用了一些PNG图像,这些图像是在尝试使用2ddft时创建的(如下所述)。在

确保我遇到同样的问题

^{pr2}$

现在,让我们尝试使用灰度。如果这个方法有效,我们可以简单地找到每个RGB通道的距离。我希望它能起作用,因为我想做信息丢失分析。在

我们转换成灰度:

>>> im1_gray = cv2.cvtColor(im1, cv2.COLOR_BGR2GRAY)
>>> im2_gray = cv2.cvtColor(im2, cv2.COLOR_BGR2GRAY)

>>> im1_gray.shape
(178, 284)

一个简单的dist.euclidean(im1_gray, im2,gray)将导致相同的ValueError: Input vector should be 1-D.异常,但我知道灰度图像数组(像素行数组)的结构,因此我执行以下操作。在

>>> dists = []
>>> for i in range(0, len(im1_gray)):
...   dists.append(dist.euclidean(im1_gray[i], im2_gray[i]))
...
>>> sum_dists = sum(dists)
>>> ave_dist = sum_dists/len(dists)
>>> ave_dist
2185.9891304058297

顺便说一下,这是两张原始图片:

rhino1_clean.jpg

rhino1_streak.jpg

灰度工作(按摩),让我们试试颜色

按照这个SO-answer中的一些过程,让我们执行以下操作。在


信息保存

在分析here之后,让我们看看我们的信息丢失。(请注意,这将是一个非常幼稚的分析,但我想对此进行分析。在

灰度与颜色信息

让我们看看颜色和灰度。稍后,我们可以看看我们是否保存了关于距离的信息。在

使用灰度和所有三个通道比较不同距离测量值-使用一组图像的距离和比率。

我不知道如何对距离进行熵测量,但我的直觉告诉我,如果我使用灰度和颜色通道计算距离,如果我没有丢失任何信息,我应该得出相似的距离比率。在


当我看到这个问题时,我的第一个想法是使用二维离散傅立叶变换,我确信在Python、NumPy或OpenCV中都有。基本上,DFT的第一个组成部分将与图像中的大图形相关。(这里是我将发表的相关研究论文:link。我没有看得太近——欢迎任何人推荐另一个。)

所以,让我从Python中查找一个二维DFT,然后我将继续编写一些工作代码。在

(如果你在过程中看到这个,我很抱歉。我只是想确保我的工作得以保存。)

首先,您需要确保您有PILPillow和{}。似乎您有NumPy,但这里有一些说明。(请注意,我现在使用的是Windows操作系统)。。。在

> python -m pip install opencv-python
> python -m pip install numpy
> python -m pip install pillow

现在,这里有5张图片-

1)犀牛形象,rhino1_clean.jpgsource

rhino1_clean.jpg

同一张图片,上面有我在画作中画的黑色条纹,rhino1_streak.jpg

rhino1_streak.jpg

另一个犀牛形象,rhino2_clean.jpgsource

rhino2_clean.jpg

第一个河马伊玛锗hippo1_clean.jpgsource

hippo1_clean.jpg

第二个河马图像,hippo2_clean.jpgsource)。在

{a13}

所有图片都是合理使用的。在

让我们进一步演示Python终端。在

>python

>>> import PIL
>>> import numpy as np

首先,如果我们使用灰度的PNG图像,生活会更轻松-PNG是因为它是一个直截了当的位图(而不是压缩的图像),灰度是因为我不必显示通道的所有细节。在

>>> rh_img_1_cln = PIL.Image.open("rhino1_clean.jpg")
>>> rh_img_1_cln.save("rhino1_clean.png")
>>> rh_img_1_cln_gs = PIL.Image.open("rhino1_clean.png").convert('LA')
>>> rh_img_1_cln_gs.save("rhino1_clean_gs.png")

对其他四个图像执行类似的步骤。我使用了PIL变量名,rh_img_1_stkrh_img_2_clnhp_img_1_clnhp_img_2_cln。我得到了以下灰度图像的图像文件名,我将进一步使用这些文件名:rhino1_streak_gs.pngrhino2_clean_gs.pnghippo1_clean_gs.pnghippo2_clean_gs.png。在

现在,让我们得到DFT的系数。下面的代码(ref.this SO answer)将用于第一个干净的rhino图像。在

让我们先“看看”图像数组。这将向我们展示左上栏的网格版本,较高的值为白色,较低的值为黑色。在

注意,在我开始输出这个数组之前,我将设置为numpy默认值,参见https://docs.scipy.org/doc/numpy/reference/generated/numpy.set_printoptions.html

>>> np.set_printoptions(edgeitems=3,infstr='inf',
... linewidth=75, nanstr='nan', precision=8,
... suppress=False, threshold=1000, formatter=None)
>>> rh1_cln_gs_array = np.array(rh_img_1_cln_gs)
>>> for i in {0,1,2,3,4}:
...   print(rh1_cln_gs_array[i][:13])
...
[93 89 78 87 68 74 58 51 73 96 90 75 86]
[85 93 64 64 76 49 19 52 65 76 86 81 76]
[107  87  71  62  54  31  32  49  51  55  81  87  69]
[112  93  94  72  57  45  58  48  39  49  76  86  76]
[ 87 103  90  65  88  61  44  57  34  55  70  80  92]

现在,让我们运行DFT并查看结果。在开始实际的转换之前,我更改了numpy打印选项,使事情变得更好。在

>>> np.set_printoptions(formatter={'all':lambda x: '{0:.2f}'.format(x)})
>>>
>>> rh1_cln_gs_fft = np.fft.fft2(rh_img_1_cln_gs)
>>> rh1_cln_gs_scaled_fft = 255.0 * rh1_cln_gs_fft / rh1_cln_gs_fft.max()
>>> rh1_cln_gs_real_fft = np.absolute(rh1_cln_gs_scaled_fft)
>>> for i in {0,1,2,3,4}:
...   print(rh1_cln_gs_real_fft[i][:13])
...
[255.00 1.46 7.55 4.23 4.53 0.67 2.14 2.30 1.68 0.77 1.14 0.28 0.19]
[38.85 5.33 3.07 1.20 0.71 5.85 2.44 3.04 1.18 1.68 1.69 0.88 1.30]
[29.63 3.95 1.89 1.41 3.65 2.97 1.46 2.92 1.91 3.03 0.88 0.23 0.86]
[21.28 2.17 2.27 3.43 2.49 2.21 1.90 2.33 0.65 2.15 0.72 0.62 1.13]
[18.36 2.91 1.98 1.19 1.20 0.54 0.68 0.71 1.25 1.48 1.04 1.58 1.01]

现在,使用rhino1_streak.jpg执行相同过程的结果

[255.00 3.14 7.69 4.72 4.34 0.68 2.22 2.24 1.84 0.88 1.14 0.55 0.25]
[40.39 4.69 3.17 1.52 0.77 6.15 2.83 3.00 1.40 1.57 1.80 0.99 1.26]
[30.15 3.91 1.75 0.91 3.90 2.99 1.39 2.63 1.80 3.14 0.77 0.33 0.78]
[21.61 2.33 2.64 2.86 2.64 2.34 2.25 1.87 0.91 2.21 0.59 0.75 1.17]
[18.65 3.34 1.72 1.76 1.44 0.91 1.00 0.56 1.52 1.60 1.05 1.74 0.66]

我将打印\增量值,而不是执行更全面的距离。如果需要距离,可以将此处显示的值的平方和。在

>>> for i in {0,1,2,3,4}:
...   print(rh1_cln_gs_real_fft[i][:13] - rh1_stk_gs_real_fft[i][:13])
...
[0.00 -1.68 -0.15 -0.49 0.19 -0.01 -0.08 0.06 -0.16 -0.11 -0.01 -0.27
 -0.06]
[-1.54 0.64 -0.11 -0.32 -0.06 -0.30 -0.39 0.05 -0.22 0.11 -0.11 -0.11 0.04]
[-0.53 0.04 0.14 0.50 -0.24 -0.02 0.07 0.30 0.12 -0.11 0.11 -0.10 0.08]
[-0.33 -0.16 -0.37 0.57 -0.15 -0.14 -0.36 0.46 -0.26 -0.07 0.13 -0.14
 -0.04]
[-0.29 -0.43 0.26 -0.58 -0.24 -0.37 -0.32 0.15 -0.27 -0.12 -0.01 -0.17
 0.35]

我将只放置三个长度为5的系数数组,以展示这种方法在显示图像相似性方面的工作原理。老实说,这对我来说是个实验,所以我们看看会怎么样。在

您可以将这些系数与距离或其他指标进行比较。在


有关信息保存的更多信息

让我们用上述方法对信息丢失进行信息理论分析。 在分析here之后,让我们看看我们的信息丢失。在


祝你好运!在

相关问题 更多 >