10倍交叉验证

model = BiLstm(args, data, ckpt_path='./' + args.data_name + '_output/') if args.mode=='train': model.train(data) sess = model.restore_last_session() model.predict(data, sess) if args.mode=='test': sess = model.restore_last_session() model.predict(data, sess)

data = Data('./data/'+args.data_name+'data_sample.bin','./data/'+args.data_name+'vocab_sample.bin', './data/'+args.data_name+'word_embed_weight_sample.bin',args.batch_size) class Data(object): def __init__(self,data_path,vocab_path,pretrained,batch_size): self.batch_size = batch_size data, vocab ,pretrained= self.load_vocab_data(data_path,vocab_path,pretrained) self.train=data['train'] self.valid=data['valid'] self.test=data['test'] self.train2=data['train2'] self.valid2=data['valid2'] self.test2=data['test2'] self.word_size = len(vocab['word2id'])+1 self.max_sent_len = vocab['max_sent_len'] self.max_topic_len = vocab['max_topic_len'] self.word2id = vocab['word2id'] word2id = vocab['word2id'] #self.id2word = dict((v, k) for k, v in word2id.iteritems()) self.id2word = {} for k, v in six.iteritems(word2id): self.id2word[v]=k self.pretrained=pretrained

1条回答

网友

1楼 · 发布于 2024-05-13 18:52:01

从外观上看，似乎train方法可以获得会话并从现有模型继续训练def train(self, data, sess=None)

因此，只需对现有代码和库进行非常小的更改，就可以像smth一样完成任务

首先加载所有数据并构建模型

data = Data('./data/'+args.data_name+'data_sample.bin','./data/'+args.data_name+'vocab_sample.bin',
            './data/'+args.data_name+'word_embed_weight_sample.bin',args.batch_size)

model = BiLstm(args, data, ckpt_path='./' + args.data_name + '_output/')

然后创建交叉验证数据集，如smth

def get_new_data_object():
  return data = Data('./data/'+args.data_name+'data_sample.bin','./data/'+args.data_name+'vocab_sample.bin',
            './data/'+args.data_name+'word_embed_weight_sample.bin',args.batch_size)

cross_validation = []
for i in range(10):
  tmp_data = get_new_data_object()
  tmp_data.train= #get 90% of tmp_data['train']
  tmp_data.valid= #get 90% of tmp_data['valid']
  tmp_data.test= #get 90% of tmp_data['test']
  tmp_data.train2= #get 90% of tmp_data['train2']
  tmp_data.valid2= #get 90% of tmp_data['valid2']
  tmp_data.test2= #get 90% of tmp_data['test2']
  cross_validation.append(tmp_data)

然后运行模型n次（10次用于10倍交叉验证）

sess = null
for data in cross_validation:
  model.train(data, sess)
  sess = model.restore_last_session()

记住要注意一些关键的想法

我不知道您的数据是如何精确地构造的，但这会影响将其拆分为test、train和（在您的情况下）valid的方式
数据的分割必须是test、train和valid的每个三元组的精确分割，可以随机进行，也可以每次进行不同的分割，只要保持一致
您可以使用交叉验证来训练模型n次，或者创建n模型，并选择最佳的模型来避免过度拟合

这段代码只是一个草稿，您可以按照自己的意愿实现它，有一些很好的库已经实现了这样的功能，当然可以进行优化（不是每次都读取整个数据文件）

另一个需要考虑的问题是将模型创建与数据分离，特别是模型构造函数的data参数，从快速查看来看，它似乎只使用数据的维度，因此不传递整个对象是一个很好的做法

此外，如果模型在它的状态（创建时）集成了data对象的其他属性，比如数据本身，那么我的代码可能无法工作，而且是一种更加外科化的方法

希望对你有所帮助，为你指明正确的方向

相关问题更多 >

编程相关推荐

热门问题

热门文章