让SFT重新伟大！CMU等华人学者提出全新「批判式微调」，媲美复刻版DeepSeek

ze3个月前 (03-10)默认740

声明：本文来自于微信公众号新智元，作者：新智元，授权站长之家转载发布。

【新智元导读】在面对复杂的推理任务时，SFT往往让大模型显得力不从心。最近，CMU等机构的华人团队提出了「批判性微调」（CFT）方法，仅在50K 样本上训练，就在大多数基准测试中优于使用超过200万个样本的强化学习方法。

模仿是传统语言模型训练的主要方式。LLM在解决现实世界问题方面之所以表现出前所未有的性能，其中一项核心技术是监督微调（SFT）。

在SFT的过程中，模型被要求模仿人类标注或合成的高质量回复，以增强通用指令遵循能力。这类SFT数据集通常使用Self-Instruct和Evol-Instruct等方法进行构建。

然而，这种方法存在明显的局限性。随着数据集规模和质量的提升，SFT面临着边际收益递减的问题，尤其是在训练本身效果就不错的基础模型时，使用SFT甚至可能会导致性能下降。

最近，CMU、滑铁卢大学等机构的3名华人学者就发表了一篇论文，针对SFT做出了更进一步的改进，提出批判式监督微调方法（CFT，Critique Fine-Tuning），旨在让模型更有效地模仿模仿数据集。

论文链接:https://arxiv.org/pdf/2501.17703

批判式监督微调:让SFT重新伟大

CFT将重点从简单模仿转向基于批判的学习，核心思想是让模型学会批判，而不是简单地模仿，其灵感来源于人类的学习过程。

学霸们在学习过程中，不仅仅是复制提供的答案，而是分析、批判和改进它们。同样，CFT数据集中为错误响应提供相应的批评供模型学习，让LLM能够识别响应中存在的缺陷，进而提出改进建议并验证正确性。

这种方法不仅能够提升推理能力，还能使模型在面对复杂任务时表现出更强的适应性和灵活性。

比如，针对这个问题:在直角三角形的直角边长分别为3个单位和4个单位的情况下，构造一个正方形。求五边形$ABCDE$的面积（单位:平方单位）。

在SFT模式下，模型会一步步的进行运算，先运用勾股定理计算斜边长度为5，再计算正方形的面积为25，以及三角形面积6，之后模型给出回答25-6。

而在CFT模式下，会由模型对上述回答给出批评，指出错误点是应该加上而非减去三角形的面积，并给出正确答案31。

下图展示了典型的SFT和CFT数据样例。

SFT让大模型直接模仿答案，CFT让大模型模仿对错误回答的批评

CFT的高训练效率

那么，如何获得CFT训练所需的数据呢?

论文基于WebInstruct，构建了一个50K个带批评意见的问答对作为训练数据集，其中的批评由GPT-4o等高级模型生�

返回列表

爱军事