使用\u目录中的flow\u将图像增强适配到训练数据

# define image augmentations train_datagen = ImageDataGenerator( featurewise_center=True, featurewise_std_normalization=True, zca_whitening=True) # generate image batches from directory train_datagen.flow_from_directory(train_dir)

1条回答

网友

1楼 · 发布于 2024-05-23 15:23:21

你是对的，docs在这方面不是很有启发性

您需要的实际上是一个4步流程：

定义您的数据扩充
安装增强器
使用flow_from_directory()设置生成器
使用fit_generator()培训您的模型

以下是假设图像分类情况的必要代码：

# define data augmentation configuration
train_datagen = ImageDataGenerator(featurewise_center=True,
                                   featurewise_std_normalization=True,
                                   zca_whitening=True)

# fit the data augmentation
train_datagen.fit(x_train)

# setup generator
train_generator = train_datagen.flow_from_directory(
        train_data_dir,
        target_size=(img_height, img_width),
        batch_size=batch_size,
        class_mode='categorical')

# train model
model.fit_generator(
    train_generator,
    steps_per_epoch=nb_train_samples,
    epochs=epochs,
    validation_data=validation_generator, # optional - if used needs to be defined
    validation_steps=nb_validation_samples)

显然，有几个参数需要定义（train_data_dir，nb_train_samples等等），但希望您能理解

如果您还需要使用validation_generator，如我的示例中所示，那么应该以与train_generator相同的方式定义它

更新（评论后）

步骤2需要一些讨论；这里，x_train是实际数据，理想情况下，这些数据应该放在主内存中。另外（documentation），此步骤是

Only required if featurewise_center or featurewise_std_normalization or zca_whitening.

然而，在许多实际情况下，要求所有的训练数据都适合内存显然是不现实的。在这种情况下，如何集中/规范化/删除数据本身就是一个（巨大的）子领域，可以说是Spark等大数据处理框架存在的主要原因

那么，在实践中该怎么做呢？那么，在这种情况下，下一个合乎逻辑的操作是采样您的数据；事实上，这正是社区的建议——以下是Keras创始人Francois Chollet on Working with large datasets like Imagenet：

datagen.fit(X_sample) # let's say X_sample is a small-ish but statistically representative sample of your data

另一段引自ongoing open discussion的关于扩展ImageDataGenerator的话（重点添加）：

fit is required for feature-wise standardization and ZCA , and it only takes an array as parameter, there is no fit for directory. For now, we need to manually read a subset of the image to do this fit for a directory. One idea is we can change fit() to accept the generator itself(flow_from_directory), of course, standardization should be disabled during fit.

相关问题更多 >

编程相关推荐

热门问题

热门文章