spacy和train数据中的Cased与uncased BERT模型

网友

1楼 · 编辑于 2024-06-10 07:34:03

简单来说，BERT cased不会将以大写字母开头的单词小写，例如德语中的名词

当口音起重要作用时，BERT cased很有帮助。例如德语中的schön

如果我们使用BERT uncased将schön转换为schon，它将具有不同的含义。 schön的意思是美丽，而schon的意思是已经

网友

2楼 · 编辑于 2024-06-10 07:34:03

在不同的语境中，可以发现“伯特有壳”和“伯特无壳”之间的区别。例如，在dialogs系统中，用户很少以正确的形式输入文本，因此，以小写形式查找单词是很常见的。也许，在这种情况下，未加密的伯特有优势

网友

3楼 · 编辑于 2024-06-10 07:34:03

作为一个非德语使用者，你对名词大写的评论确实让人觉得德语中的大写比英语中的大写更为相关，但这并不意味着大写模式在所有任务中都有更好的表现

对于诸如词性检测之类的东西，case可能对您描述的原因非常有帮助，但是对于诸如情绪分析之类的东西，不太清楚拥有更大的词汇量所增加的复杂性是否值得受益。（作为一个人，你可能可以想象用所有小写文本进行情感分析也同样容易。）

考虑到唯一可用的型号是带外壳的型号，我只会选择它——我相信它仍然是你能买到的最好的经过训练的德国型号之一。大小写模式对大小写不同的单词有单独的vocab条目（例如，在英语中the和The将是不同的标记）。因此，是的，在预处理期间，您不希望通过调用.lower()来删除该信息，只需保持大小写不变即可

相关问题更多 >

编程相关推荐

热门问题

热门文章