基于图像和文本特征的多类输出TensorFlow训练模型

2024-05-13 19:48:26 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个包含图像和文本特征的数据集。训练数据的标签是一个二维数组,形状与输入图像相同,为1s/0s

因此,基本上,培训投入是:

  • 输入形状为(X,Y)的图像
  • 具有形状(Z,)的附加功能集(即文本功能)。你知道吗

训练标签的形状是(X,Y)。你知道吗

我正在尝试使用Tensorflow/Keras对这些数据进行模型训练。我知道我可以训练一个输入大小为(X* Y) + Z的模型,但我知道这不是处理混合图像/附加数据特性的最佳方法。你知道吗

所以我的问题是:

1)如何设置模型以处理混合输入类型?你知道吗

2)由于我的输出与图像大小相同,我是否需要定义(X * Y)大小的输出层?如何指定输出层,使其可以接受多个值,即输出中的任何/多个位置可以是1或0?你知道吗


Tags: 数据方法模型图像文本功能tensorflow特征
1条回答
网友
1楼 · 发布于 2024-05-13 19:48:26

一种方法是定义两个独立的子模型来处理文本和图像数据,然后合并这些子模型的输出以创建最终模型:

       -               -
- Input Image -        - Input Text  -
       -               -
       |                       |
       |                       |
       |                       |
       -                  -  
- Image Model -        -     Text Model    -
- (e.g. CNNs) -        - (e.g. Embeddings, -
       -        -  LSTM, Conv1D)    -
       \                         -
        \                     /
         \                   /
          \                 /
           \               /
            \             /
             \           /
              \         /
               \       /
                      
           -      Merge         -
           - (e.g. concatenate) -
                      
                     |
                     |
                     |
                      
           -      Upsample      -
           - (e.g. Dense layer, -
           -   transpose-conv)  -
                      
                     |
                     |
                     |
                     -
                -  Output -
                     -

这些框中的每一个对应于一个或多个层,您可能有不同的方法来实现它们和设置它们的参数,尽管我在每个框中都提到了一些建议。你知道吗

相关问题 更多 >