RNN中的隐藏大小与输入大小

# assume that hidden_size = 3 class Encoder(nn.Module): def __init__(self, src_dictionary_size, hidden_size): super(Encoder, self).__init__() self.embedding = nn.Embedding(src_dictionary_size, hidden_size) self.gru = nn.GRU(input_size = hidden_size, hidden_size = hidden_size)

1条回答

网友
1楼 · 发布于 2024-04-19 02:34:34

我刚刚解决了这个问题，这个错误是自己造成的。在
结论：输入大小和隐藏的大小可以不同，这没有固有的问题。问题中的前提陈述正确。在
上面的（完整）代码的问题是GRU的初始隐藏状态没有正确的维度。初始隐藏状态必须与后续隐藏状态具有相同的维度。在我的例子中，初始隐藏状态的形状是（1,2,5）而不是（1,2,4）。前者，5代表嵌入向量的维数。4表示GRU中隐藏的_大小（num neurons）。正确代码如下：
import torch import torch.nn as nn class Encoder(nn.Module): def __init__(self, src_dictionary_size, input_size, hidden_size): super(Encoder, self).__init__() self.hidden_size = hidden_size self.embedding = nn.Embedding(src_dictionary_size, input_size) self.gru = nn.GRU(input_size = input_size, hidden_size = hidden_size) def forward(self, pad_seqs, seq_lengths, hidden): """ Args: pad_seqs of shape (max_seq_length, batch_size, 1): Padded source sequences. seq_lengths: List of sequence lengths. hidden of shape (1, batch_size, hidden_size): Initial states of the GRU. Returns: outputs of shape (max_seq_length, batch_size, hidden_size): Padded outputs of GRU at every step. hidden of shape (1, batch_size, hidden_size): Updated states of the GRU. """ embedded_sqs = self.embedding(pad_seqs).squeeze(2) packed_sqs = pack_padded_sequence(embedded_sqs, seq_lengths) packed_output, h_n = self.gru(packed_sqs, hidden) output, input_sizes = pad_packed_sequence(packed_output) return output, h_n def init_hidden(self, batch_size=1): return torch.zeros(1, batch_size, self.hidden_size) def test_Encoder_shapes(): hidden_size = 4 embedding_size = 5 encoder = Encoder(src_dictionary_size=5, input_size = embedding_size, hidden_size = hidden_size) print(encoder) max_seq_length = 4 batch_size = 2 hidden = encoder.init_hidden(batch_size=batch_size) pad_seqs = torch.tensor([ [1, 2], [2, 3], [3, 0], [4, 0] ]).view(max_seq_length, batch_size, 1) outputs, new_hidden = encoder.forward(pad_seqs=pad_seqs, seq_lengths=[4, 2], hidden=hidden) assert outputs.shape == torch.Size([4, batch_size, hidden_size]), f"Bad outputs.shape: {outputs.shape}" assert new_hidden.shape == torch.Size([1, batch_size, hidden_size]), f"Bad new_hidden.shape: {new_hidden.shape}" print('Success') test_Encoder_shapes()

相关问题更多 >

编程相关推荐

热门问题

热门文章