Pythorch自定义丢失功能

import torch import torch.nn as nn import torchvision import torchvision.transforms as transforms import numpy as np import matplotlib.pyplot as plt import torch.utils.data as data_utils import torch.nn as nn import torch.nn.functional as F num_epochs = 20 x1 = np.array([0,0]) x2 = np.array([0,1]) x3 = np.array([1,0]) x4 = np.array([1,1]) num_epochs = 200 class cus2(torch.nn.Module): def __init__(self): super(cus2,self).__init__() def forward(self, outputs, labels): # reshape labels to give a flat vector of length batch_size*seq_len labels = labels.view(-1) # mask out 'PAD' tokens mask = (labels >= 0).float() # the number of tokens is the sum of elements in mask num_tokens = int(torch.sum(mask).data[0]) # pick the values corresponding to labels and multiply by mask outputs = outputs[range(outputs.shape[0]), labels]*mask # cross entropy loss for all non 'PAD' tokens return -torch.sum(outputs)/num_tokens x = torch.tensor([x1,x2,x3,x4]).float() y = torch.tensor([0,1,1,0]).long() train = data_utils.Tensordataset(x,y) train_loader = data_utils.DataLoader(train , batch_size=2 , shuffle=True) device = 'cpu' input_size = 2 hidden_size = 100 num_classes = 2 learning_rate = .0001 class NeuralNet(nn.Module) : def __init__(self, input_size, hidden_size, num_classes) : super(NeuralNet, self).__init__() self.fc1 = nn.Linear(input_size , hidden_size) self.relu = nn.ReLU() self.fc2 = nn.Linear(hidden_size , num_classes) def forward(self, x) : out = self.fc1(x) out = self.relu(out) out = self.fc2(out) return out for i in range(0 , 1) : model = NeuralNet(input_size, hidden_size, num_classes).to(device) criterion = nn.CrossEntropyLoss() # criterion = Regress_Loss() # criterion = cus2() optimizer = torch.optim.Adam(model.parameters(), lr=learning_rate) total_step = len(train_loader) for epoch in range(num_epochs) : for i,(images , labels) in enumerate(train_loader) : images = images.reshape(-1 , 2).to(device) labels = labels.to(device) outputs = model(images) loss = criterion(outputs , labels) optimizer.zero_grad() loss.backward() optimizer.step() # print(loss) outputs = model(x) print(outputs.data.max(1)[1])

1条回答

网友

1楼 · 发布于 2024-09-21 00:18:40

您的loss函数在编程上是正确的，但以下情况除外：

    # the number of tokens is the sum of elements in mask
    num_tokens = int(torch.sum(mask).data[0])

当您执行torch.sum时，它将返回一个0维张量，并因此发出无法索引的警告。若要修复此问题，请按建议执行int(torch.sum(mask).item())，否则int(torch.sum(mask))也将起作用。

现在，你是想用定制损耗来模拟CE损耗吗？如果是，那么您就缺少log_softmax

要修复此问题，请在语句4之前添加outputs = torch.nn.functional.log_softmax(outputs, dim=1)。注意，在附加教程的情况下，log_softmax已经在forward调用中完成。你也可以这么做。

另外，我注意到学习速度慢，甚至与CE丢失，结果不一致。把学习率提高到1e-3对我来说很好，以防客户和CE丢失。

相关问题更多 >

编程相关推荐

热门问题

热门文章