擅长:python、mysql、java
<p>除了嵌入层,层应用于批处理中的所有示例。在</p>
<p>以一个非常简单的网络为例:</p>
<pre><code>inp = Input(shape=(4,))
h1 = Dense(2, activation='relu', use_bias=False)(inp)
out = Dense(1)(h1)
model = Model(inp, out)
</code></pre>
<p>这是一个有1个输入层,1个隐藏层和一个输出层的简单网络。如果我们以隐藏层为例,这个层有一个形状为(4,2,)的权重矩阵。每次迭代时,输入数据(即形状矩阵)(批处理大小,4)乘以隐藏层权重(前馈阶段)。因此,h1的激活依赖于所有的样品。损失也按批次计算。输出层有一个形状(批处理大小,1)。假设在正向阶段,所有批处理样本都会影响权重值,背景和渐变更新也是如此。在</p>
<p>在处理文本时,问题通常被指定为从一系列单词中预测特定的标签。这被建模为(批处理大小、序列长度、单词索引)的形状。让我们举一个非常基本的例子:</p>
^{pr2}$
<p>您可以将其复制并粘贴到<a href="https://colab.research.google.com" rel="nofollow noreferrer">colab</a>并查看摘要。在</p>
<p>这个例子所做的是:</p>
<ol>
<li>将一系列单词索引转换成一系列单词嵌入向量。在</li>
<li>对所有批次(以及序列中的所有元素)应用一个名为h1的密集层;该层减少了嵌入向量的维数。它不是一个典型的网络元素来处理文本(孤立地)。但这似乎符合你的问题。在</li>
<li>在每个例子中,使用递归层将序列缩减为单个向量。在</li>
<li>从“句子”向量预测单个标签。在</li>
</ol>