for i, spacy_tok in enumerate(doc):
print(f"spacy-token {i + 1}: {spacy_tok.text}")
spacy-token 1: The
spacy-token 2: quick
spacy-token 3: brown
spacy-token 4: fox
spacy-token 5: jumps
spacy-token 6: over
spacy-token 7: the
spacy-token 8: lazy
spacy-token 9: dog
而代币是:
for i, tok_piece in enumerate(doc._.trf_data.tokens['input_texts'][0]):
print(f"token-piece {i + 1}: {tok_piece}")
变形金刚与其他spacy型号略有不同,但您可以使用
doc._.trf_data.tensors[1]
单个BPE(字节对编码)标记块的向量在
doc._.trf_data.tensors[0]
中。注意,我使用术语令牌片段而不是令牌,以防止spacy令牌和BPE令牌化器生成的令牌之间的混淆例如,在我们的情况下,spacy代币是:
而代币是:
相关问题 更多 >
编程相关推荐