让SFT重新伟大!CMU等华人学者提出全新「批判式微调」,媲美复刻版DeepSeek

ze9个月前默认747

声明:本文来自于微信公众号 新智元,作者:新智元,授权站长之家转载发布。

【新智元导读】在面对复杂的推理任务时,SFT往往让大模型显得力不从心。最近,CMU等机构的华人团队提出了「批判性微调」(CFT)方法,仅在50K 样本上训练,就在大多数基准测试中优于使用超过200万个样本的强化学习方法。

模仿是传统语言模型训练的主要方式。LLM在解决现实世界问题方面之所以表现出前所未有的性能,其中一项核心技术是监督微调(SFT)。

在SFT的过程中,模型被要求模仿人类标注或合成的高质量回复,以增强通用指令遵循能力。这类SFT数据集通常使用Self-Instruct和Evol-Instruct等方法进行构建。

然而,这种方法存在明显的局限性。随着数据集规模和质量的提升,SFT面临着边际收益递减的问题,尤其是在训练本身效果就不错的基础模型时,使用SFT甚至可能会导致性能下降。

最近,CMU、滑铁卢大学等机构的3名华人学者就发表了一篇论文,针对SFT做出了更进一步的改进,提出批判式监督微调方法(CFT,Critique Fine-Tuning),旨在让模型更有效地模仿模仿数据集。

论文链接:https://arxiv.org/pdf/2501.17703

批判式监督微调:让SFT重新伟大

CFT将重点从简单模仿转向基于批判的学习,核心思想是让模型学会批判,而不是简单地模仿,其灵感来源于人类的学习过程。

学霸们在学习过程中,不仅仅是复制提供的答案,而是分析、批判和改进它们。同样,CFT数据集中为错误响应提供相应的批评供模型学习,让LLM能够识别响应中存在的缺陷,进而提出改进建议并验证正确性。

这种方法不仅能够提升推理能力,还能使模型在面对复杂任务时表现出更强的适应性和灵活性。

比如,针对这个问题:在直角三角形的直角边长分别为3个单位和4个单位的情况下,构造一个正方形。求五边形$ABCDE$的面积(单位:平方单位)。

在SFT模式下,模型会一步步的进行运算,先运用勾股定理计算斜边长度为5,再计算正方形的面积为25,以及三角形面积6,之后模型给出回答25-6。

而在CFT模式下,会由模型对上述回答给出批评,指出错误点是应该加上而非减去三角形的面积,并给出正确答案31。

下图展示了典型的SFT和CFT数据样例。

SFT让大模型直接模仿答案,CFT让大模型模仿对错误回答的批评

CFT的高训练效率

那么,如何获得CFT训练所需的数据呢?

论文基于WebInstruct,构建了一个50K个带批评意见的问答对作为训练数据集,其中的批评由GPT-4o等高级模型生�

相关文章

越南:严格控制物价,避免加薪造成预期性通货膨胀

越南将从今年7月1日起实施薪资制度改革。其中,干部、公务员和职员的月平均工资将增长30%左右(包括基本工资和津贴),比薪酬改革前平均每年增长7%的幅度有较大增长。Shakanai——根据越共十二届七中...

邻居浇筑水泥冲垮墙面 女子新家被毁 直言“一觉醒来天塌了” 崭新的房屋变得面目全非!

邻居浇筑水泥冲垮墙面 女子新家被毁 直言“一觉醒来天塌了” 崭新的房屋变得面目全非!

邻居浇筑水泥冲垮墙面 女子新家被毁   【邻居浇筑水泥冲垮墙面 女子新家被毁】近日,一起因邻居施工不当导致的房屋损毁事件引发社会广泛关注。北京一大爷在浇筑水泥过程中操作失误,致使隔壁女子新家的墙面被冲...

这10批次食品抽检不合格!不要再吃啦→

市场监管总局近日组织食品安全监督抽检。共抽取22种食品样品1256批次,包括加工食品、餐饮食品、乳制品、饮料、酒类、糕点、炒货食品、饼干、方便食品、薯类和膨化食品、豆制品、蜂产品、蔬菜制品、水果制品...

观音桥网红天桥因人流火爆而限流 游客们扎堆路边打卡 密密麻麻全是人!

观音桥网红天桥因人流火爆而限流 游客们扎堆路边打卡 密密麻麻全是人!

观音桥网上名人天桥因人流火爆而限行。 [#观音桥网上名人天桥因人流火爆限行#]五一黄金周期间,在观音桥环路拍摄《我在重庆》也需要限行。真的感觉这里没有这个网络名人,也感觉重庆的网络名人席是被外地的朋友...

歌手黄霄雲出车祸 面部腿部受伤 坐轮椅戴面纱现身《落凡尘》首映礼献唱!!

歌手黄霄雲出车祸 面部腿部受伤 坐轮椅戴面纱现身《落凡尘》首映礼献唱!!

歌手黄霄云在一场车祸中受伤。【歌手黄霄云车祸伤脸腿】在这个秋天的下午,一个突如其来的消息打破了娱乐圈的沉寂——歌手黄霄云在一次事故中伤了脸腿。这个只有二十多岁的女孩,凭借独特的嗓音和深情的演绎,在歌坛...

外交部驻港公署发言人:香港人权状况不容抹黑

【/h/]新京报快讯据外交部驻港特派员公署官方消息,所谓“2023年度国别人权报告”,对别国人权指手画脚,污蔑抹黑中国和香港特别行政区人权法治状况,外交部驻港特派员公署发言人表示坚决反对,并强调:【/...