让SFT重新伟大!CMU等华人学者提出全新「批判式微调」,媲美复刻版DeepSeek

ze7个月前默认741

声明:本文来自于微信公众号 新智元,作者:新智元,授权站长之家转载发布。

【新智元导读】在面对复杂的推理任务时,SFT往往让大模型显得力不从心。最近,CMU等机构的华人团队提出了「批判性微调」(CFT)方法,仅在50K 样本上训练,就在大多数基准测试中优于使用超过200万个样本的强化学习方法。

模仿是传统语言模型训练的主要方式。LLM在解决现实世界问题方面之所以表现出前所未有的性能,其中一项核心技术是监督微调(SFT)。

在SFT的过程中,模型被要求模仿人类标注或合成的高质量回复,以增强通用指令遵循能力。这类SFT数据集通常使用Self-Instruct和Evol-Instruct等方法进行构建。

然而,这种方法存在明显的局限性。随着数据集规模和质量的提升,SFT面临着边际收益递减的问题,尤其是在训练本身效果就不错的基础模型时,使用SFT甚至可能会导致性能下降。

最近,CMU、滑铁卢大学等机构的3名华人学者就发表了一篇论文,针对SFT做出了更进一步的改进,提出批判式监督微调方法(CFT,Critique Fine-Tuning),旨在让模型更有效地模仿模仿数据集。

论文链接:https://arxiv.org/pdf/2501.17703

批判式监督微调:让SFT重新伟大

CFT将重点从简单模仿转向基于批判的学习,核心思想是让模型学会批判,而不是简单地模仿,其灵感来源于人类的学习过程。

学霸们在学习过程中,不仅仅是复制提供的答案,而是分析、批判和改进它们。同样,CFT数据集中为错误响应提供相应的批评供模型学习,让LLM能够识别响应中存在的缺陷,进而提出改进建议并验证正确性。

这种方法不仅能够提升推理能力,还能使模型在面对复杂任务时表现出更强的适应性和灵活性。

比如,针对这个问题:在直角三角形的直角边长分别为3个单位和4个单位的情况下,构造一个正方形。求五边形$ABCDE$的面积(单位:平方单位)。

在SFT模式下,模型会一步步的进行运算,先运用勾股定理计算斜边长度为5,再计算正方形的面积为25,以及三角形面积6,之后模型给出回答25-6。

而在CFT模式下,会由模型对上述回答给出批评,指出错误点是应该加上而非减去三角形的面积,并给出正确答案31。

下图展示了典型的SFT和CFT数据样例。

SFT让大模型直接模仿答案,CFT让大模型模仿对错误回答的批评

CFT的高训练效率

那么,如何获得CFT训练所需的数据呢?

论文基于WebInstruct,构建了一个50K个带批评意见的问答对作为训练数据集,其中的批评由GPT-4o等高级模型生�

相关文章

3800亿元押注AI基建后,阿里交出一份答卷

3800亿元押注AI基建后,阿里交出一份答卷

声明:本文来自于微信公众号 电商在线,作者:王崭,授权站长之家转载发布。 2025年5月15日,阿里巴巴集团(以下简称“阿里”)公布2025财年Q4财报(2025年1月—2025年3月)及2025财...

霉霉开口唱碧昂丝的歌,又是AI!口型不出戏,五官姿态也自然,复旦百度等出品|GitHub揽星1k+

霉霉开口唱碧昂丝的歌,又是AI!口型不出戏,五官姿态也自然,复旦百度等出品|GitHub揽星1k+

免责声明:本文来自微信微信官方账号量子位(ID: qbitai),作者熙丰,授权站长之家转载发布。一张头像,一段音频参考,就能让霉霉在你面前唱出碧昂斯的光环。一个叫Hallo的研究火了,GitHub赢...

女子酒后与男友吵架,将菜刀从25楼扔下,法院:拘役五个月,缓刑七个月,处罚金1500元

王大爷在楼下树荫处乘凉,忽然一把菜刀 " 从天而降 ",好在没有伤到人,吓得王大爷赶紧报了警。近日,该起高空抛物案,在天津河东法院开庭审理。 案情概述 被告人李某租住在某小区的 25 楼,酒后与男友...

雷军“怒骂”全国网友七天!AI彻底变坏了?

雷军“怒骂”全国网友七天!AI彻底变坏了?

声明:本文来自于微信公众号 雷科技,作者:雷科技,授权站长之家转载发布。 谁能想到科技圈顶流之一的雷军,居然因为AI语音引起互联网热议? 国庆期间,小雷的抖音首页几乎被雷军的AI语音包刷屏。视频中的...

震惊!35岁小伙不结婚 爆改山洞隐居4年 每月花销控制在300元内“美色不值得浪费时间和金钱”!!

震惊!35岁小伙不结婚 爆改山洞隐居4年 每月花销控制在300元内“美色不值得浪费时间和金钱”!!

  35岁小伙不结婚 爆改山洞隐居4年   【35岁小伙不结婚 爆改山洞隐居4年】5月30日,#35岁小伙不结婚 爆改山洞隐居4年#话题冲上热搜引发关注。当事人表示,美色不值得我浪费时间和金钱,因为它...

AI产品数据对比:一分没花的DeepSeek一骑绝尘,Kimi六小龙花钱还受伤

AI产品数据对比:一分没花的DeepSeek一骑绝尘,Kimi六小龙花钱还受伤

声明:本文来自于微信公众号 三言Pro,授权站长之家转载发布。 春节期间,DeepSeek成为流量黑洞,将其他AI产品的光环夺走了。 数据显示,半个多月的时间,DeepSeek破了多项纪录,没花钱打...