张量流多输出多损耗

2024-04-20 05:28:16 发布

您现在位置:Python中文网/ 问答频道 /正文

我想重新训练mediapipe hand解决方案,以获得34个地标(在当前21个地标的基础上增加13个地标),我构建了一个类似于 media pipe hand的模型。mediapipe手部地标检测模型有3个输出:mediapipe-landmark detection modle output

  1. 63(21*3)地标坐标
  2. 信心分数:确定手是否存在于图像中
  3. 手部:确定手部图像是右侧还是左侧

我已经测试了单一输出的模型(即只获得地标坐标),它运行良好

现在,我想训练所有三种输出的模型。 我已经对我的功能模型进行了更改,并且还生成了包含所有三个输出数据的tfrecord文件My_model

但我得到了这个错误:

ValueError:数据的格式应为x(x,)(x, y)(x, y, sample_weight),已找到:(<;tf.Tensor'IteratorGetNext:0'形状=(无、256、256、3)dtype=float32>;<;tf.Tensor'IteratorGetNext:1'形状=(无、63)dtype=float32>;,<;tf.Tensor'IteratorGetNext:2'形状=(无、1)dtype=int64>;,<;tf.Tensor'IteratorGetNext:3'形状=(无,1)dtype=int64>;)

enter image description here

此外,我还想了解如何设置优化置信度得分的数据(手动检测或非手动检测),目前我数据集中的所有图像的置信度得分都为1(手动检测),如果我添加“无手动图像”,那么我应该为地标和硬度设置什么值