Pytorch CUDA在训练时出现OutOfMemory错误

corpus = ClassificationCorpus(data_folder, test_file='../data/exports/val.csv', train_file='../data/exports/train.csv') print("finished loading corpus") word_embeddings = [WordEmbeddings('glove'), FlairEmbeddings('news-forward-fast'), FlairEmbeddings('news-backward-fast')] document_embeddings = DocumentLSTMEmbeddings(word_embeddings, hidden_size=512, reproject_words=True, reproject_words_dimension=256) classifier = TextClassifier(document_embeddings, label_dictionary=corpus.make_label_dictionary(), multi_label=False) trainer = ModelTrainer(classifier, corpus, optimizer=Adam) trainer.train('../model_files', max_epochs=12,learning_rate=0.0001, train_with_dev=False, embeddings_storage_mode="none")

2条回答

网友

1楼 · 编辑于 2024-04-25 19:23:55

好的，经过两天的持续调试，我们找到了根本原因。我所理解的是Flair对句子长度没有任何限制，从字数的意义上讲，它是以最长的句子作为最大值。因此，这就引起了问题，因为在我的例子中，有150万行的内容很少，这太多了，无法将嵌入到内存中，即使是16GB的GPU。就这样，它被打破了

要解决这个问题：对于包含这么长单词的内容，您可以从这些内容的任何部分（左/右/中间的任何位置）提取n个单词（在我的例子中为10K），然后对其余部分进行主干，或者如果比较数量非常少，则直接忽略这些记录进行培训

在这之后，我希望你能在训练中取得进步，就像我的情况一样

附言：如果你遵循这个思路并且面临类似的问题，请随时回复，这样我就可以探索并帮助你解决这个问题

网友

2楼 · 编辑于 2024-04-25 19:23:55

此错误是因为GPU内存不足。你可以试试看

减少训练数据的大小
减少模型的大小，即隐藏层的数量或深度
您还可以尝试减少批量大小

相关问题更多 >

编程相关推荐

热门问题

热门文章