spacy和train数据中的Cased与uncased BERT模型

2024-06-10 07:34:03 发布

您现在位置:Python中文网/ 问答频道 /正文

我想使用spacy的预训练BERT模型进行文本分类,但我对cased/uncased模型有点困惑。我在某个地方读到cased模型只应该在字母大小写可能对任务有帮助的情况下使用。在我的具体案例中:我正在处理德语文本。在德语中,所有名词都以大写字母开头。所以,我认为,(如果我错了,请纠正我),这就是必须使用cased模型的确切情况。(在spacy中也没有适用于德语的uncased型号)

但在这种情况下,必须如何处理数据? 我应该(在预处理列车数据时)保持原样(我的意思是不使用.lower()函数)还是没有任何区别


Tags: 数据模型文本spacy地方字母分类情况
3条回答

简单来说,BERT cased不会将以大写字母开头的单词小写,例如德语中的名词

当口音起重要作用时,BERT cased很有帮助。 例如德语中的schön

如果我们使用BERT uncased将schön转换为schon,它将具有不同的含义。 schön的意思是美丽,而schon的意思是已经

在不同的语境中,可以发现“伯特有壳”和“伯特无壳”之间的区别。例如,在dialogs系统中,用户很少以正确的形式输入文本,因此,以小写形式查找单词是很常见的。也许,在这种情况下,未加密的伯特有优势

作为一个非德语使用者,你对名词大写的评论确实让人觉得德语中的大写比英语中的大写更为相关,但这并不意味着大写模式在所有任务中都有更好的表现

对于诸如词性检测之类的东西,case可能对您描述的原因非常有帮助,但是对于诸如情绪分析之类的东西,不太清楚拥有更大的词汇量所增加的复杂性是否值得受益。(作为一个人,你可能可以想象用所有小写文本进行情感分析也同样容易。)

考虑到唯一可用的型号是带外壳的型号,我只会选择它——我相信它仍然是你能买到的最好的经过训练的德国型号之一。大小写模式对大小写不同的单词有单独的vocab条目(例如,在英语中theThe将是不同的标记)。因此,是的,在预处理期间,您不希望通过调用.lower()来删除该信息,只需保持大小写不变即可

相关问题 更多 >