使用pytorch的torchtext构建文本分类模型。词汇表对象位于data.field中:
def create_tabularDataset_object(self,csv_path):
self.TEXT = data.Field(tokenize=self.tokenizer,batch_first=True,include_lengths=True)
self.LABEL = data.LabelField(dtype = torch.float,batch_first=True)
def get_vocab_with_glov(self,data):
# initialize glove embeddings
self.TEXT.build_vocab(data,min_freq=100,vectors = "glove.6B.100d")
培训后,在生产中为模型提供服务时,如何保持文本对象?在预测时,我需要它来索引单词tokens
[TEXT.vocab.stoi[t] for t in tokenizedׁ_sentence]
我是不是遗漏了什么,不需要拿着那个东西?除了模型权重之外,我还需要其他文件吗
我发现我可以将其保存为pkl: 将TEXT.vocab保存为pkl有效:
在哪里
像往常一样阅读
实际上,最好的(更稳定的)方法是使用torch内置函数torch.save(*)
保存文件的示例:
要再次加载文件,请执行以下操作:
相关问题 更多 >
编程相关推荐