使用教程here,我编写了以下代码:
from transformers import GPT2Tokenizer, GPT2Model
import torch
tokenizer = GPT2Tokenizer.from_pretrained('gpt2')
model = GPT2Model.from_pretrained('gpt2')
inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
outputs = model(**inputs)
last_hidden_states = outputs.last_hidden_state
所以我意识到“输入”是由句子中的标记项组成的。 但是我如何获得标记化项目的值呢?(参见示例[“你好”、“我的”、“狗”、“是”、“可爱”])
我这样问是因为有时我认为如果一个词不在字典中(即,一个词来自另一种语言),它会将该词分开。所以我想在我的代码中检查一下
您可以在标记器的输出上调用
tokenizer.decode
,以从给定索引下的词汇表中获取单词:相关问题 更多 >
编程相关推荐