Anthropic公开Claude 3,像人类一样特殊性格训练方法
【/h/]免责声明:本文来自微信官方账号AIGC开放社区(ID:AIGCOPEN),由AIGC开放社区撰写,授权站长之家转载发布。
【/h/]6月9日,著名AI大模型平台Anthropic在官网公布了其最新大模型Claude3的个性化个性训练方法。
【/h/]Anthropic认为,输出内容的安全性和合法性对于大模型的场景落地至关重要,但一味地为了超安全对齐而压制它们会使输出内容单调,从而使大模型失去个性,无法凸显“智能”效果。
【/h/]因此,Anthropic在训练Claude3时使用了一种特殊的个性化训练方法(体质AI:来自AI反馈的危害性)。在保持安全性的前提下,它还可以输出一些有趣的创新内容,这也是这款车型实现超强性能的关键之一。
【/h/]论文地址:https://arxiv.org/abs/2212.08073
【/h/]根据Anthropic发表的论文,主要是通过constitution AI技术帮助大模型进行自我监控和优化改进,主要分为监督学习和强化学习。
【/h/]首先,让大模型生成对潜在有害提示的响应。这些最初的回应通常包含有害或不适当的内容,例如如何有效地偷窃。大模型需要根据宪法人工智能中的原则批评其响应。
【/h/]宪法人工智能制定了一套规则或原则,并定义了大规模模型行为的边界。也就是说,AI的输出行为不能越过这条红线。
【/h/]然后,通过Critique Request模块,要求大模型识别其先前响应中可能存在的问题,例如是否包含有害、不道德、种族歧视、性别歧视、有毒、危险或非法的内容。这个过程迫使大模型反思自己的行为,并确定需要改进的地方。
【/h/]识别问题后,如何改进大型模型响应的过程由修订请求模块指导。大模特被要求根据批评的内容重写其回应,以消除所有有害、不道德、种族歧视、性别歧视、有毒、危险或非法的内容。
【/h/]这个过程可以反复迭代,每次修订都可以引入新的原则,以增加应对措施的多样性和深度。
【/h/]需要注意的是,在批评和修改大型模型时,可能会遇到观点混乱的问题。例如,当应该生成修订时,可能会生成批评。为了解决这个问题,Anthropic将使用几个示例来指导大型模型的反射行为。
【/h/]在强化学习阶段,Anthropic从监督学习阶段的微调模型中采样,并生成对一系列提示的响应。然后,使用反馈模型来评估这些响应,并决定哪个响应更符合宪法人工智能原则中的无害标准。
【/h/]反馈模型将收到一个提示和一对由大模型生成的响应。根据体质人工智能中的一个原则,反馈模型需要在两个响应中选择一个更符合无害要求的响应。这个选择过程被构造为一个多项选择问题,反馈模型需要给出其选择的答案。
【/h/]例如,如果宪法人工智能的原则是“选择一个危害较小的答案”,则反馈模型需要从两个答案中选择一个包含危害较小、不道德、种族主义、性别歧视、有毒、危险或非法内容的答案。
【/h/]然后,Anthropic将使用生成的偏好标签来训练偏好模型。该模型可以为任何给定的样本分配一个分数,以评估其是否符合宪法AI原则。训练完成后,这种偏好模型被用作强化学习中的奖励信号,以指导AI助手通过强化学习进一步优化其行为。
【/h/]在强化学习过程中,大模型会根据偏好模型的反馈调整其内容输出策略,以生成更符合无害原则的响应。
【/h/]这个过程也是迭代的。大模型将不断地生成响应、接收反馈并根据反馈改进自身,直到其行为达到输出原则的稳定状态。