Tensorflow:使用可变字符级文本输入的强化学习?

2024-04-26 05:38:23 发布

您现在位置:Python中文网/ 问答频道 /正文

考虑到强化学习环境,其中Tensorflow agent将在环境中为接收到的每个观察采取“步骤”。

如何最有效地适应可变长度的观察,例如,当一个观察值超过1024个占位符限制时(例如,Wikipedia文章的长度为10000个字符)注意占位符是不可变的,并且在计算过程中不能动态更改:

self.obs = tf.placeholder(tf.float32, shape=(None,1024), name='obs')

我熟悉padding方法,其中指定了最大行长度,未占用的字符用占位符填充。但是,当处理长度在100到10000个字符之间的输入时,这种方法似乎无效,因此,占位符的形状必须是(None, 10000),即使有效地使用9900个占位符字符处理长度仅为100个字符的输入,并且占用大量的内存和计算实际上是无用的,在强化学习的背景下,更是雪上加霜,为了学习有效的政策,正在采取数以百万计的步骤。在

意识到嵌入方法

然而,这种方法存在许多问题,包括但不限于:缺乏细节和可扩展性,缺乏对标点符号的理解以及数学中的其他字符和逻辑表示公式等在

如何有效地构造一个输入流,使不同的输入大小可以有效地被Tensorflow代理以避免上述问题的方式使用?在


Tags: 方法selfnone环境过程tftensorflow文章