我已经建立了一个RNN语言模型,并通过处理所有先前的隐藏状态(只有一个方向),为输入的每个元素创建上下文向量。在
在我看来,最直接的解决方案是在RNN输出上使用一个for loop,这样每个上下文向量都会一个接一个地计算出来。在
import torch
import torch.nn as nn
import torch.nn.functional as F
class RNN_LM(nn.Module):
def __init__(self, hidden_size, vocab_size, embedding_dim=None, droprate=0.5):
super().__init__()
if not embedding_dim:
embedding_dim = hidden_size
self.embedding_matrix = nn.Embedding(vocab_size, embedding_dim)
self.lstm = nn.LSTM(input_size=embedding_dim, hidden_size=hidden_size, batch_first=False)
self.attn = nn.Linear(hidden_size, hidden_size)
self.vocab_dist = nn.Linear(hidden_size, vocab_size)
self.dropout = nn.Dropout(droprate)
def forward(self, x):
x = self.dropout(self.embedding_matrix(x.view(-1, 1)))
x, states = self.lstm(x)
#print(x.size())
x = x.squeeze()
content_vectors = [x[0].view(1, -1)]
# for-loop over hidden states and attention
for i in range(1, x.size(0)):
prev_states = x[:i]
current_state = x[i].view(1, -1)
attn_prod = torch.mm(self.attn(current_state), prev_states.t())
attn_weights = F.softmax(attn_prod, dim=1)
context = torch.mm(attn_weights, prev_states)
content_vectors.append(context)
return self.vocab_dist(self.dropout(torch.cat(content_vectors)))
注意:这里的forward
方法只用于培训。
然而,这种解决方案不是很有效,因为代码不能很好地并行地计算每个上下文向量。但是由于上下文向量彼此不依赖,我想知道是否有一种非顺序的方法来计算它们。在
那么有没有一种方法可以在不使用for loop的情况下计算上下文向量,从而使更多的计算可以并行化?
好的,为了清楚起见:我假设我们只关心
for
循环的矢量化。x
的形状是什么?假设x
是二维的,我有以下代码,v1
执行循环,v2
是矢量化版本:它将你的循环矢量化,还有一些注意事项。首先,我假设
x
是二维的。其次,我跳过了使用softmax
声明它不会改变输入的大小,因此不会影响向量化。这是正确的,但不幸的是,0填充向量的softmax不等于未添加的0填充的softmaxv
。这可以通过重整化来解决。请告诉我我的假设是否正确,这是否是你工作的一个足够好的起点。在相关问题 更多 >
编程相关推荐