任务:将人脸图像分类为女性或男性。提供带标签的训练图像,从网络摄像机获取测试图像。
使用:Python 2.7,OpenCV 2.4.4
我使用ORB从灰度图像中提取特征,希望用它来训练K近邻分类器。每个训练图像是不同的人,因此每个图像的关键点和描述符的数量明显不同。我的问题是我无法理解KNN和ORB的OpenCV文档。我见过其他关于ORB,KNN和弗兰恩的问题,但他们没什么帮助。
ORB给出的描述符的性质究竟是什么?它与通过BRIEF、SURF、SIFT等获得的描述符有何不同。?
对于KNN中的每个训练样本,特征描述符的大小应该是相同的。如何确保每个图像的描述符大小相同?更一般地说,在给定数据和标签的情况下,应以何种格式向KNN提供特征以供培训?数据应该是int还是float?可以是查尔吗?
可以找到培训数据here。
我也在使用opencv示例中的haarcascade_frontalface_alt.xml
现在,KNN模型只提供了10幅图像用于训练,看看我的程序是否通过而没有错误,但事实并非如此。
这是我的代码:
import cv2
from numpy import float32 as np.float32
def chooseCascade():
# TODO: Option for diferent cascades
# HAAR Classifier for frontal face
_cascade = cv2.CascadeClassifier('haarcascade_frontalface_alt.xml')
return _cascade
def cropToObj(cascade,imageFile):
# Load as 1-channel grayscale image
image = cv2.imread(imageFile,0)
# Crop to the object of interest in the image
objRegion = cascade.detectMultiScale(image) # TODO: What if multiple ojbects in image?
x1 = objRegion[0,0]
y1 = objRegion[0,1]
x1PlusWidth = objRegion[0,0]+objRegion[0,2]
y1PlusHeight = objRegion[0,1]+objRegion[0,3]
_objImage = image[y1:y1PlusHeight,x1:x1PlusWidth]
return _objImage
def recognizer(fileNames):
# ORB contructor
orb = cv2.ORB(nfeatures=100)
keyPoints = []
descriptors = []
# A cascade for face detection
haarFaceCascade = chooseCascade()
# Start processing images
for imageFile in fileNames:
# Find faces using the HAAR cascade
faceImage = cropToObj(haarFaceCascade,imageFile)
# Extract keypoints and description
faceKeyPoints, faceDescriptors = orb.detectAndCompute(faceImage, mask = None)
#print faceDescriptors.shape
descRow = faceDescriptors.shape[0]
descCol = faceDescriptors.shape[1]
flatFaceDescriptors = faceDescriptors.reshape(descRow*descCol).astype(np.float32)
keyPoints.append(faceKeyPoints)
descriptors.append(flatFaceDescriptors)
print descriptors
# KNN model and training on descriptors
responses = []
for name in fileNames:
if name.startswith('BF'):
responses.append(0) # Female
else:
responses.append(1) # Male
knn = cv2.KNearest()
knnTrainSuccess = knn.train(descriptors,
responses,
isRegression = False) # isRegression = false, implies classification
# Obtain test face image from cam
capture = cv2.VideoCapture(0)
closeCamera = -1
while(closeCamera < 0):
_retval, _camImage = capture.retrieve()
# Find face in camera image
testFaceImage = haarFaceCascade.detectMultiScale(_camImage) # TODO: What if multiple faces?
# Keyponts and descriptors of test face image
testFaceKP, testFaceDesc = orb.detectAndCompute(testFaceImage, mask = None)
testDescRow = testFaceDesc.shape[0]
flatTestFaceDesc = testFaceDesc.reshape(1,testDescRow*testDescCol).astype(np.float32)
# Args in knn.find_nearest: testData, neighborhood
returnedValue, result, neighborResponse, distance = knn.find_nearest(flatTestFaceDesc,3)
print returnedValue, result, neighborResponse, distance
# Display results
# TODO: Overlay classification text
cv2.imshow("testImage", _camImage)
closeCamera = cv2.waitKey(1)
cv2.destroyAllWindows()
if __name__ == '__main__':
fileNames = ['BF09NES_gray.jpg',
'BF11NES_gray.jpg',
'BF13NES_gray.jpg',
'BF14NES_gray.jpg',
'BF18NES_gray.jpg',
'BM25NES_gray.jpg',
'BM26NES_gray.jpg',
'BM29NES_gray.jpg',
'BM31NES_gray.jpg',
'BM34NES_gray.jpg']
recognizer(fileNames)
当前,我在knn.train()
的行中收到一个错误,其中descriptors
未被检测为numpy数组。
另外,这种方法是完全错误的吗?我应该用别的方法来分类性别吗?我对opencv facerec演示中的fisherface和eigenface示例不满意,所以请不要直接告诉我这些。
任何其他帮助都是非常感谢的。谢谢。
---编辑---
我试了几件事,想出了一个答案。
我仍然希望社区中的某个人能帮助我提出一个想法,这样我就不必把事情硬编码到我的解决方案中。我还怀疑knn.match_nearest()没有做我需要做的事情。
如所料,识别器完全不准确,并且很容易由于旋转、照明等原因而给出错误的分类。任何关于改进此方法的建议都将非常感谢。
我用来训练的数据库是:Karolinska Directed Emotional Faces
我对所述方法的有效性/可行性有些怀疑。这是另一种你可能需要考虑的方法。
gen
文件夹的内容是@http://www1.datafilehost.com/d/0f263abc。正如您将注意到的,当数据大小变得更大时(约10k个训练样本),模型的大小可能会变得不可接受(约100-200mb)。然后你需要调查pca/lda等以前,我一直在努力寻找ORB、SIFT、SURF等的技术差异,我发现这些帖子很有帮助:
需要注意的最重要的一点是,opencv中的这些特征检测算法需要一个单一通道(通常为8位)的灰度图像。
原来
knn.train()
只能接受数据类型为“32位浮点”的“数组”。我相信opencv中的支持向量机训练也有这个要求。在python中,numpy数组需要在每一行中包含相同类型的数据,并且所有行的形状都需要与python列表不同,python列表可以包含任何类型和大小的数据。因此,在扩展了一个描述符列表之后,我将该列表转换为一个数组。
但是!在此之前,我将ORB
nfeatures
参数硬编码为25。我所有的训练数据图像的分辨率大致相同,我可以手动验证每张图像使用ORB至少可以产生25个关键点。每个关键点有32个描述符,因此25*32为每个人脸图像提供800个描述符。ORB返回一个数组,其元素为整数类型,行数等于键点数。我把它重塑成一行描述符,生成一个800大小的“向量”。下一个挑战是使用
knn.find_nearest()
。它需要一个“矩阵”,其行的形状与给定给knn.train()
的ndarray行的形状相同。不这样做可能会产生错误:即使有一个向量需要传递给
knn.find_nearest()
,它也需要是1xm形状,其中m是向量中的元素数。所以我不得不用一种简陋的方法来检查我的摄像头拍摄的图像是否可以用我的硬编码方法来解决这个问题。
代码现在如下所示:
我仍然希望社区里的某个人能帮助我提出一个想法,这样我就不必在我的解决方案中硬编码。我还怀疑knn.match_nearest()没有做我需要做的事情。
如所料,识别器完全不准确,并且很容易由于旋转、照明等原因而给出错误的分类。任何关于改进此方法的建议都将非常感谢。
相关问题 更多 >
编程相关推荐