让SFT重新伟大!CMU等华人学者提出全新「批判式微调」,媲美复刻版DeepSeek

ze1年前默认751

声明:本文来自于微信公众号 新智元,作者:新智元,授权站长之家转载发布。

【新智元导读】在面对复杂的推理任务时,SFT往往让大模型显得力不从心。最近,CMU等机构的华人团队提出了「批判性微调」(CFT)方法,仅在50K 样本上训练,就在大多数基准测试中优于使用超过200万个样本的强化学习方法。

模仿是传统语言模型训练的主要方式。LLM在解决现实世界问题方面之所以表现出前所未有的性能,其中一项核心技术是监督微调(SFT)。

在SFT的过程中,模型被要求模仿人类标注或合成的高质量回复,以增强通用指令遵循能力。这类SFT数据集通常使用Self-Instruct和Evol-Instruct等方法进行构建。

然而,这种方法存在明显的局限性。随着数据集规模和质量的提升,SFT面临着边际收益递减的问题,尤其是在训练本身效果就不错的基础模型时,使用SFT甚至可能会导致性能下降。

最近,CMU、滑铁卢大学等机构的3名华人学者就发表了一篇论文,针对SFT做出了更进一步的改进,提出批判式监督微调方法(CFT,Critique Fine-Tuning),旨在让模型更有效地模仿模仿数据集。

论文链接:https://arxiv.org/pdf/2501.17703

批判式监督微调:让SFT重新伟大

CFT将重点从简单模仿转向基于批判的学习,核心思想是让模型学会批判,而不是简单地模仿,其灵感来源于人类的学习过程。

学霸们在学习过程中,不仅仅是复制提供的答案,而是分析、批判和改进它们。同样,CFT数据集中为错误响应提供相应的批评供模型学习,让LLM能够识别响应中存在的缺陷,进而提出改进建议并验证正确性。

这种方法不仅能够提升推理能力,还能使模型在面对复杂任务时表现出更强的适应性和灵活性。

比如,针对这个问题:在直角三角形的直角边长分别为3个单位和4个单位的情况下,构造一个正方形。求五边形$ABCDE$的面积(单位:平方单位)。

在SFT模式下,模型会一步步的进行运算,先运用勾股定理计算斜边长度为5,再计算正方形的面积为25,以及三角形面积6,之后模型给出回答25-6。

而在CFT模式下,会由模型对上述回答给出批评,指出错误点是应该加上而非减去三角形的面积,并给出正确答案31。

下图展示了典型的SFT和CFT数据样例。

SFT让大模型直接模仿答案,CFT让大模型模仿对错误回答的批评

CFT的高训练效率

那么,如何获得CFT训练所需的数据呢?

论文基于WebInstruct,构建了一个50K个带批评意见的问答对作为训练数据集,其中的批评由GPT-4o等高级模型生�

相关文章

触目惊心!!家长曝儿子被8名学生持钉棍殴打入院 孩子被扎成窟窿眼!!

触目惊心!!家长曝儿子被8名学生持钉棍殴打入院 孩子被扎成窟窿眼!!

  家长曝儿子被8名学生持钉棍殴打入院   【家长曝儿子被8名学生持钉棍殴打入院】近日,一则令人震惊的消息冲上热搜,山西一名家长痛心揭露,自己年仅17岁的儿子竟在学校内,被8名学生手持带钉棍棒残暴殴打...

宝妈称遭多名男子戴白手套捶门 到底什么情况?

宝妈称遭多名男子戴白手套捶门 到底什么情况?

马宝说,她被许多戴着白手套的人殴打。 [马宝说很多男人戴着白手套敲门]素不相识的人上门,还戴着白手套,拿着菜刀。谁能不害怕? 22日,四川南充一宝妈尹女士报警称,自己被陌生人敲门4次,第4次是戴着白手...

开眼!网恋骗局中惊现“外卖刺客”……

& quot;00 & quot后贫困女大学生 网恋是65岁“金铎”老人 年龄不是距离。 只有“一顿饭”只是外卖 这两年,我在外卖上花了三万多。 老人在家人劝说下报警。 女大学生冒充无业男。 法院决...

马斯克用一个表情回应了泽连斯基 疑似“嘲讽”泽连斯基称与特朗普讨论“毫无意义”言论!

马斯克用一个表情回应了泽连斯基 疑似“嘲讽”泽连斯基称与特朗普讨论“毫无意义”言论!

  马斯克用一个表情回应了泽连斯基   【马斯克用一个表情回应了泽连斯基】据俄媒报道,美国企业家埃隆·马斯克9日在社交媒体平台X,用一个表情回应了关于乌克兰总统泽连斯基称:与美国当选总统特朗普讨论乌克...

李佳琦再开“小号”,这次换赛道了

李佳琦再开“小号”,这次换赛道了

声明:本文来自于微信公众号 新播场,作者:场妹,授权站长之家转载发布。 超头主播李佳琦再推出新直播间。 母亲节前夕,美腕的新直播间“所有爸妈的幸福家”正式开播。这是一个面向中老年群体的直播间,带货产...