我正在使用由tensorflow创建的translation model。我的GPU有12Gb内存,这将我的模型限制为size=512
、num_layers = 2
和batch_size=32
。因为我的数据集来自Ubuntu Dialoge Corpus,所以我得到了大量的数据。然而,这些限制使得模型无法进一步扩展,通过对所有数据进行训练,模型可能永远不会收敛(欠拟合)。你知道吗
由于欠拟合,我想通过切片来限制训练数据。问题是,多少钱?有没有一个指导线,有多少训练数据的一个特定规模的模型应饲料,以收敛,但避免过度拟合?一个翻译模型可以从多少对x\u数据和y\u数据中学习?你知道吗
目前没有回答
相关问题 更多 >
编程相关推荐