了解gpt2如何标记字符串

2024-05-13 11:31:30 发布

男 | 程序猿一只，喜欢编程写python代码。

使用教程here，我编写了以下代码：

from transformers import GPT2Tokenizer, GPT2Model
import torch

tokenizer = GPT2Tokenizer.from_pretrained('gpt2')
model = GPT2Model.from_pretrained('gpt2')

inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
outputs = model(**inputs)

last_hidden_states = outputs.last_hidden_state

所以我意识到“输入”是由句子中的标记项组成的。但是我如何获得标记化项目的值呢？（参见示例[“你好”、“我的”、“狗”、“是”、“可爱”]）

我这样问是因为有时我认为如果一个词不在字典中（即，一个词来自另一种语言），它会将该词分开。所以我想在我的代码中检查一下

Tags：代码 from 标记 import model 教程 outputs hidden

1条回答

网友

1楼 · 发布于 2024-05-13 11:31:30

您可以在标记器的输出上调用tokenizer.decode，以从给定索引下的词汇表中获取单词：

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
>>> list(map(tokenizer.decode, inputs.input_ids[0]))
['Hello', ',', ' my', ' dog', ' is', ' cute']

了解gpt2如何标记字符串

相关问题更多 >

编程相关推荐

热门问题

热门文章

了解gpt2如何标记字符串

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >