让SFT重新伟大!CMU等华人学者提出全新「批判式微调」,媲美复刻版DeepSeek

ze2个月前默认739

声明:本文来自于微信公众号 新智元,作者:新智元,授权站长之家转载发布。

【新智元导读】在面对复杂的推理任务时,SFT往往让大模型显得力不从心。最近,CMU等机构的华人团队提出了「批判性微调」(CFT)方法,仅在50K 样本上训练,就在大多数基准测试中优于使用超过200万个样本的强化学习方法。

模仿是传统语言模型训练的主要方式。LLM在解决现实世界问题方面之所以表现出前所未有的性能,其中一项核心技术是监督微调(SFT)。

在SFT的过程中,模型被要求模仿人类标注或合成的高质量回复,以增强通用指令遵循能力。这类SFT数据集通常使用Self-Instruct和Evol-Instruct等方法进行构建。

然而,这种方法存在明显的局限性。随着数据集规模和质量的提升,SFT面临着边际收益递减的问题,尤其是在训练本身效果就不错的基础模型时,使用SFT甚至可能会导致性能下降。

最近,CMU、滑铁卢大学等机构的3名华人学者就发表了一篇论文,针对SFT做出了更进一步的改进,提出批判式监督微调方法(CFT,Critique Fine-Tuning),旨在让模型更有效地模仿模仿数据集。

论文链接:https://arxiv.org/pdf/2501.17703

批判式监督微调:让SFT重新伟大

CFT将重点从简单模仿转向基于批判的学习,核心思想是让模型学会批判,而不是简单地模仿,其灵感来源于人类的学习过程。

学霸们在学习过程中,不仅仅是复制提供的答案,而是分析、批判和改进它们。同样,CFT数据集中为错误响应提供相应的批评供模型学习,让LLM能够识别响应中存在的缺陷,进而提出改进建议并验证正确性。

这种方法不仅能够提升推理能力,还能使模型在面对复杂任务时表现出更强的适应性和灵活性。

比如,针对这个问题:在直角三角形的直角边长分别为3个单位和4个单位的情况下,构造一个正方形。求五边形$ABCDE$的面积(单位:平方单位)。

在SFT模式下,模型会一步步的进行运算,先运用勾股定理计算斜边长度为5,再计算正方形的面积为25,以及三角形面积6,之后模型给出回答25-6。

而在CFT模式下,会由模型对上述回答给出批评,指出错误点是应该加上而非减去三角形的面积,并给出正确答案31。

下图展示了典型的SFT和CFT数据样例。

SFT让大模型直接模仿答案,CFT让大模型模仿对错误回答的批评

CFT的高训练效率

那么,如何获得CFT训练所需的数据呢?

论文基于WebInstruct,构建了一个50K个带批评意见的问答对作为训练数据集,其中的批评由GPT-4o等高级模型生�

相关文章

41度高温下交警女儿暴躁宠爹 又暖心又好笑!!

41度高温下交警女儿暴躁宠爹 又暖心又好笑!!

41度,交警女儿暴力撒娇。【/h/]【交警女儿脾气暴躁,41度溺爱父亲】41度,当她看到父亲在执勤中努力工作时,女儿给父亲涂上了防晒霜。】最近,在云南玉溪元江县,执勤交警的女儿杨完成了中考。当她看到父...

一周干3天,月入50万:日本为什么还是没人开出租车?

【/h/】一个周乾人工作三天,月薪50万元:为什么日本仍然没有出租车司机?,正解局,13分钟【/h/】一位从事出口业务的朋友最近去日本拜访客户。【/h/】我和他聊起在日本的见闻,他提到现在在东京打车太...

在小红书当情感导师,他登上了带货榜TOP1

在小红书当情感导师,他登上了带货榜TOP1

声明:本文来自于微信公众号 卡思数据,作者:林午,授权站长之家转载发布。 “逃过了李佳琦,逃过了董宇辉,居然没逃过李诞。” “李诞不直播的日子跟被冷暴力了一样。” 告别脱口秀后,李诞摇身一变,俨然成...

脑瘫厂长陆鸿:以“信”为笔书写传奇人生

路宏,男,1979年4月出生,中共党员,苏州袁岳纸制品有限公司负责人,苏州市吴江区残联副主席。获得江苏省自强模范、江苏省道德模范提名奖、中国好人等荣誉称号,2022年获感动中国年度人物。虽然是脑瘫患...

网友发帖称广州美博会现场发生打架事件 派出所:已第一时间出警处理

制作 / 张李昊 纵览新闻见习记者 朱荣琛 9 月 4 日,有多名网友发视频称广州美博会现场发生多人打架事件。9 月 5 日,纵览新闻记者从广州市公安局海珠区分局琶洲派出所了解到,事发后他们已第...

中美双方商定!她将访华

【/h/]4月3日,外交部发言人王文斌主持例行记者会。有记者提问,中方对美国财长耶伦即将访华有何期待,双方将讨论哪些具体议题?【/h/]王文斌表示,在中美元首重要共识精神指引下,经中美双方商定,美国财...