考虑到强化学习环境,其中Tensorflow agent将在环境中为接收到的每个观察采取“步骤”。
如何最有效地适应可变长度的观察,例如,当一个观察值超过1024个占位符限制时(例如,Wikipedia文章的长度为10000个字符)注意占位符是不可变的,并且在计算过程中不能动态更改:
self.obs = tf.placeholder(tf.float32, shape=(None,1024), name='obs')
我熟悉padding方法,其中指定了最大行长度,未占用的字符用占位符填充。但是,当处理长度在100到10000个字符之间的输入时,这种方法似乎无效,因此,占位符的形状必须是(None, 10000)
,即使有效地使用9900个占位符字符处理长度仅为100个字符的输入,并且占用大量的内存和计算实际上是无用的,在强化学习的背景下,更是雪上加霜,为了学习有效的政策,正在采取数以百万计的步骤。在
意识到嵌入方法
然而,这种方法存在许多问题,包括但不限于:缺乏细节和可扩展性,缺乏对标点符号的理解以及数学中的其他字符和逻辑表示公式等在
如何有效地构造一个输入流,使不同的输入大小可以有效地被Tensorflow代理以避免上述问题的方式使用?在
目前没有回答
相关问题 更多 >
编程相关推荐