Pyrotch RNN模型没有学到任何东西

class RealOrFakeLSTM(nn.Module): def __init__(self, input_size, output_size, embedding_dim, hidden_dim, n_layers, bidirec, drop_prob): super().__init__() self.output_size=output_size self.n_layers=n_layers self.hidden_dim=hidden_dim self.bidirec=True; self.embedding=nn.Embedding(vocab_size, embedding_dim) self.lstm1=nn.LSTM(embedding_dim, hidden_dim, n_layers, dropout=drop_prob, batch_first=True, bidirectional=bidirec) #self.lstm2=nn.LSTM(hidden_dim, hidden_dim, n_layers, dropout=drop_prob, batch_first=True) self.dropout=nn.Dropout(drop_prob) self.fc=nn.Linear(hidden_dim, output_size) self.sigmoid=nn.Sigmoid() def forward(self, x): batch=len(x) hidden1=self.init_hidden(batch) #hidden2=self.init_hidden(batch) embedd=self.embedding(x) lstm_out1, hidden1=self.lstm1(embedd, hidden1) #lstm_out2, hidden2=self.lstm2(lstm_out1, hidden2) lstm_out1=lstm_out1.contiguous().view(-1, self.hidden_dim) # make it lstm_out2, if you un comment the other lstm cell. out=self.dropout(lstm_out1) out=self.fc(out) sig_out=self.sigmoid(out) sig_out=sig_out.view(batch, -1) sig_out=sig_out[:, -1] return sig_out def init_hidden(self, batch): if (train_on_gpu): if self.bidirec==True: hidden=(torch.zeros(self.n_layers*2, batch, self.hidden_dim).cuda(),torch.zeros(self.n_layers*2, batch, self.hidden_dim).cuda()) else: hidden=(torch.zeros(self.n_layers, batch, self.hidden_dim).cuda(),torch.zeros(self.n_layers, batch, self.hidden_dim).cuda()) else: if self.bidirec==True: hidden=(torch.zeros(self.n_layers*2, batch, self.hidden_dim),torch.zeros(self.n_layers*2, batch, self.hidden_dim)) else: hidden=(torch.zeros(self.n_layers, batch, self.hidden_dim),torch.zeros(self.n_layers, batch, self.hidden_dim)) return hidden

learning_rate=0.005 epochs=50 vocab_size = len(vocab_to_int)+1 # +1 for the 0 padding output_size = 2 embedding_dim = 300 hidden_dim = 256 n_layers = 2 batch_size=23 net=RealOrFakeLSTM(vocab_size, output_size, embedding_dim, hidden_dim, n_layers, True, 0.3) net.to(device) criterion=nn.BCELoss() optimizer=torch.optim.Adam(net.parameters(),lr=learning_rate) net.train() loss_arr=np.array([]) lossPerEpoch=np.array([]) for i in range(epochs): total_loss=0; for input,label in train_loader: if train_on_gpu: input=input.to(device) label=label.to(device) optimizer.zero_grad() input=input.clone().detach().long() out=net(input) loss=criterion(out.squeeze(),label.float()) loss_arr=np.append(loss_arr,loss.cpu().detach().numpy()) loss.backward() optimizer.step() total_loss+=loss total_loss=total_loss/len(train_loader) lossPerEpoch=np.append(lossPerEpoch,total_loss.cpu().detach().numpy()) print("Epoch ",i,": ",total_loss) torch.save(net.state_dict(), Path+"/RealOrFakeLSTM.pt") torch.save(net, Path+"/RealOrFakeLSTM.pth") current_time=str(time.time()) torch.save(net.state_dict(), Path+"/pt/RealOrFakeLSTM"+'_pt_'+current_time+".pt") torch.save(net, Path+"/pth/RealOrFakeLSTM"+'_pth_'+current_time+".pth")

2条回答

网友

1楼 · 编辑于 2024-04-20 07:27:40

好消息是：“总损失值几乎相同”，这意味着它们并不总是相同的，因此，我认为您的网络不会输出恒定的概率！我可以看出你的培训没有按计划进行的原因有很多。不幸的是，如果不调试自己，我将无法肯定地说会发生什么。以下是我的假设：

首先，有害的一点是：对于神经网络来说，任务可能太难了。你有没有试过手工分类，你觉得容易吗？对于这一点，没有简单的解决办法，除非承认机器学习不是一根魔杖，不能解决所有问题
也许你的学习率太高（或太低），试着启动培训，每次10^-5到100乘以10。不需要让培训运行太长时间，只需检查从一次迭代到另一次迭代的损失变化有多大
也许你的训练集是不平衡的：如果你有95%的True输入和5%的False输入，那么你的网络自然会从每次预测True开始（logits对应的概率约为95%）。在这种情况下，尝试人为地平衡它（至少暂时地）：可以通过复制False示例（理想情况下不是在内存中而是直接在代码中）或删除一些True示例（理想情况下也只是在代码中，而不是在数据库中）来实现
可能您的架构太小（或太大），请尝试添加（或删除）层。我将从移除层开始，因为较小的网络往往学习更快

尽管测试所有这些假设可能会对您有所帮助，但我首先鼓励您了解网络的输出，打印softmax层的输出：它输出的概率有多大，您能猜出原因吗？（有时你不能，但通常情况下，这是可能的，就像我在前面的回答中提到的95/5概率的情况）检查损失是否是你期望的，如果有这个输出（如果需要的话，手动计算），一般来说，好奇地想知道你的代码是如何运行的，并检查它是否在任何可以解释变量的地方都能正常工作

这是机器学习中最难的部分之一，在机器学习中一帆风顺并不容易；）祝你好运

网友

2楼 · 编辑于 2024-04-20 07:27:40

从我可以告诉你的是，在每次向前传递中初始化hidden1=self.init_hidden（批处理）。这不应该是正确的。在每个正向过程中初始化一个层可以解释您描述的行为

相关问题更多 >

编程相关推荐

热门问题

热门文章