Huggingface预训练德语标记器用于句子嵌入?

2024-05-16 03:20:52 发布

您现在位置:Python中文网/ 问答频道 /正文

我一直在遵循这个指南。例如,我想实现XLNetTokenizer来生成子词。指南上显示的是英语,但有德语的对应词吗

from transformers import XLNetTokenizer
tokenizer = XLNetTokenizer.from_pretrained("xlnet-base-cased")

此代码段是为英语编写的。对于德语,有https://huggingface.co/bert-base-german-cased,但是我特别想尝试一下XLNEt生成的句子片段标记,因为句子片段嵌入似乎是最好的


Tags: fromhttpsimportbase代码段指南句子tokenizer
1条回答
网友
1楼 · 发布于 2024-05-16 03:20:52

您是否尝试加载XLMTokenizer的English / German版本

from transformers import XLMTokenizer

tokenizer = XLMTokenizer.from_pretrained("xlm-mlm-ende-1024")
tokenizer.tokenize("Der Landstreicher hatte eine Lieblingstätigkeit")

'''
['der</w>',
 'land',
 'st',
 'reicher</w>',
 'hatte</w>',
 'eine</w>',
 'lieb',
 'ling',
 'stati',
 'gkeit</w>']
'''
tokenizer.tokenize("You are a disgusting handyman")

'''
['you</w>', 'are</w>', 'a</w>', 'disgu', 'sting</w>', 'hand', 'yman</w>']
'''
# Other languages, for example Russian, aren't tokenized correctly.
tokenizer.tokenize("Ты маленький человек") 

'''
['т',
 'ы</w>',
 'м',
 'а',
 'л',
 'е',
 'н',
 'ь',
 'к',
 'и',
 'и</w>',
 'ч',
 'е',
 'л',
 'о',
 'в',
 'е',
 'к</w>']
'''

相关问题 更多 >