让SFT重新伟大!CMU等华人学者提出全新「批判式微调」,媲美复刻版DeepSeek

ze1年前默认750

声明:本文来自于微信公众号 新智元,作者:新智元,授权站长之家转载发布。

【新智元导读】在面对复杂的推理任务时,SFT往往让大模型显得力不从心。最近,CMU等机构的华人团队提出了「批判性微调」(CFT)方法,仅在50K 样本上训练,就在大多数基准测试中优于使用超过200万个样本的强化学习方法。

模仿是传统语言模型训练的主要方式。LLM在解决现实世界问题方面之所以表现出前所未有的性能,其中一项核心技术是监督微调(SFT)。

在SFT的过程中,模型被要求模仿人类标注或合成的高质量回复,以增强通用指令遵循能力。这类SFT数据集通常使用Self-Instruct和Evol-Instruct等方法进行构建。

然而,这种方法存在明显的局限性。随着数据集规模和质量的提升,SFT面临着边际收益递减的问题,尤其是在训练本身效果就不错的基础模型时,使用SFT甚至可能会导致性能下降。

最近,CMU、滑铁卢大学等机构的3名华人学者就发表了一篇论文,针对SFT做出了更进一步的改进,提出批判式监督微调方法(CFT,Critique Fine-Tuning),旨在让模型更有效地模仿模仿数据集。

论文链接:https://arxiv.org/pdf/2501.17703

批判式监督微调:让SFT重新伟大

CFT将重点从简单模仿转向基于批判的学习,核心思想是让模型学会批判,而不是简单地模仿,其灵感来源于人类的学习过程。

学霸们在学习过程中,不仅仅是复制提供的答案,而是分析、批判和改进它们。同样,CFT数据集中为错误响应提供相应的批评供模型学习,让LLM能够识别响应中存在的缺陷,进而提出改进建议并验证正确性。

这种方法不仅能够提升推理能力,还能使模型在面对复杂任务时表现出更强的适应性和灵活性。

比如,针对这个问题:在直角三角形的直角边长分别为3个单位和4个单位的情况下,构造一个正方形。求五边形$ABCDE$的面积(单位:平方单位)。

在SFT模式下,模型会一步步的进行运算,先运用勾股定理计算斜边长度为5,再计算正方形的面积为25,以及三角形面积6,之后模型给出回答25-6。

而在CFT模式下,会由模型对上述回答给出批评,指出错误点是应该加上而非减去三角形的面积,并给出正确答案31。

下图展示了典型的SFT和CFT数据样例。

SFT让大模型直接模仿答案,CFT让大模型模仿对错误回答的批评

CFT的高训练效率

那么,如何获得CFT训练所需的数据呢?

论文基于WebInstruct,构建了一个50K个带批评意见的问答对作为训练数据集,其中的批评由GPT-4o等高级模型生�

相关文章

委内瑞拉遭遇全国性停电,委政府:反对派所为

当地时间 8 月 30 日凌晨起,委内瑞拉遭遇全国性大范围停电,23 个州和首都区均受到波及,并导致主要石油港口货物装卸一度被迫中断。截至当地时间 17 时,首都加拉加斯等至少 8 个主要城市的...

惊险10秒!交警冲进“死亡盲区”救人

11月1日 湖北省鄂州市华容区 楚樊大道兴华路路口 上演惊险一幕↓ 在这个紧要关头 交警不顾个人安危。 冲进货车盲区救人。 还好没有出事。 当天7点40分, 鄂州市公安局交管局华容大队民事辅警...

16岁女孩复刻“猴王出世”,网友:又是被大神碾压的一天

如果你是80后, 调出漫画书, 一定有很多回忆。 孙悟空诞生了,是周晓再现的。受访者提供 近日,一个视频唤醒了80后的记忆——杭州一名女高中生用针笔再造了半部漫画。 这本漫画的名字你一定很熟悉。...

杭州叫花鸡事件涉事店铺已停业整顿,店家道歉并赔偿1000元

【/h/]& quot;我在这里向全国人民道歉。这件事造成了不好的影响。我愿意承担相应的法律责任,赔偿消费者的损失。"5月6日下午,杭州街,“叫花鸡没有鸡”涉事经营者陆先生面对镜头诚恳道歉。【/h/]...

彻底失望!范志毅吐槽国足:球怎么能传成这样 禁区犯规被判点球,网友直呼:想起12年前那场比赛!!

彻底失望!范志毅吐槽国足:球怎么能传成这样 禁区犯规被判点球,网友直呼:想起12年前那场比赛!!

范志毅吐槽国足:球怎么能传成这样   【范志毅吐槽国足:球怎么能传成这样】北京时间6月5日,中国男足在对阵印度尼西亚队,国足战印尼被吹首个点球,范志毅无奈苦笑紧张到扣手皮。结果印尼1-0领先,范志毅直...

网友捡苹果手机归还被失主“重谢”,打开是31张练功券,律师:或构成欺诈

【/h/]来源|潇湘晨报【/h/]记者|周玲茹【/h/]据南昌广播电视台报道,近日,广东东莞一网友发布视频称失主找到了丢失的苹果手机,声称归还手机有丰厚的感谢费。失主归还手机后,打开红包发现里面有31...