如何使用SFTTrainer微调语言模型并加入负样本?
我正在使用' trl '这个包里的SFTTrainer来微调一个语言模型。我想给它一些负面示例,但我找不到任何内置的方法。是不是我漏掉了什么,或者有没有什么自定义的实现方式?
我试着查看文档,但没有找到明显的内容。
1 个回答
1
SFTTrainer是为了进行监督式微调而设计的,主要是为了提高符合特定分布样本的可能性,所以直接使用负样本的方法并不简单。
也许其他对齐算法,比如KTO(在trl中也有实现),可能会适合你的情况。
另一种可能的方法是修改提示内容,把负标签包含进去。例如可以这样写:“{问题} 这是错误的答案:{答案}”。