Huggingface预训练德语标记器用于句子嵌入？

1条回答

网友

1楼 · 发布于 2024-05-16 03:20:52

您是否尝试加载XLMTokenizer的English / German版本

from transformers import XLMTokenizer

tokenizer = XLMTokenizer.from_pretrained("xlm-mlm-ende-1024")
tokenizer.tokenize("Der Landstreicher hatte eine Lieblingstätigkeit")

'''
['der</w>',
 'land',
 'st',
 'reicher</w>',
 'hatte</w>',
 'eine</w>',
 'lieb',
 'ling',
 'stati',
 'gkeit</w>']
'''
tokenizer.tokenize("You are a disgusting handyman")

'''
['you</w>', 'are</w>', 'a</w>', 'disgu', 'sting</w>', 'hand', 'yman</w>']
'''
# Other languages, for example Russian, aren't tokenized correctly.
tokenizer.tokenize("Ты маленький человек") 

'''
['т',
 'ы</w>',
 'м',
 'а',
 'л',
 'е',
 'н',
 'ь',
 'к',
 'и',
 'и</w>',
 'ч',
 'е',
 'л',
 'о',
 'в',
 'е',
 'к</w>']
'''

编程相关推荐

使用jaxb2annotateplugin和XJC工具的java自定义注释
java组织。xeustechnologies。jcl无法加载WstxInputFactory类
java JUnit在格式化字符串上比较失败
java Bukkit配置部分getKeys
如何关闭Java流？
java Struts2正则表达式配置
链式事务注释的java奇怪行为
java在两个JButton之间使用变量
java签署APK时内容会发生什么变化？
java LWJGL:Slick：3D世界中的绘图字体

相关问题更多 >

编程相关推荐

热门问题

热门文章

Huggingface预训练德语标记器用于句子嵌入？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >