使用sklearn的load_files()加载png格式的图像数据
我现在正在用sklearn来构建一个简单的图像识别器。
我需要使用load_files('./directory/')来从这个目录下的子文件夹中加载图片。
它能正确获取目标值,但数据属性不是简单的像素值。我想我需要设置一个编码参数来处理这些图片文件,但我不知道具体该用什么。
1 个回答
4
编码参数是用来解码文件内容的原始字节,假设这些内容是以某种文本编码方式存储的(比如UTF-8)。
对于图片文件,你需要自己遍历filenames
属性的内容,并使用类似于scipy.misc.imread的工具(你还需要安装PIL或Pillow这个包)。
这里有一个实用的函数,可以将“野外标记人脸”数据集中的jpeg文件加载为numpy数组:
https://github.com/scikit-learn/scikit-learn/blob/master/sklearn/datasets/lfw.py#L108
你可以用它来学习如何编写自己的自定义数据集加载器。