擅长:python、mysql、java
<p>我认为这个错误是预料之中的。这里真正的问题是你没有足够的空间来分配1)决策层的参数矩阵,和/或2)中间张量。在</p>
<p>参数矩阵的形状为<code>input_feat_dim x output_num_classes</code>。如您所见,当词汇表很大时,这个矩阵将消耗大量内存。
为了训练一个网络,我们还需要保持BP的中间张量,它将更大<code>batch_size x input_feat_dim x output_num_classes</code>。在</p>
<p>所以有一件事你可以很快的尝试,就是把你的<code>batch_size</code>减少到1/10。当然,批量大小不能太小。在这种情况下,您可能需要累积渐变,直到看到足够的样本。在</p>