Anthropic公开Claude 3，像人类一样特殊性格训练方法

ze1年前 (2024-06-12)默认435

【/h/]免责声明:本文来自微信官方账号AIGC开放社区（ID:AIGCOPEN），由AIGC开放社区撰写，授权站长之家转载发布。

【/h/]6月9日，著名AI大模型平台Anthropic在官网公布了其最新大模型Claude3的个性化个性训练方法。

【/h/]Anthropic认为，输出内容的安全性和合法性对于大模型的场景落地至关重要，但一味地为了超安全对齐而压制它们会使输出内容单调，从而使大模型失去个性，无法凸显“智能”效果。

【/h/]因此，Anthropic在训练Claude3时使用了一种特殊的个性化训练方法（体质AI:来自AI反馈的危害性）。在保持安全性的前提下，它还可以输出一些有趣的创新内容，这也是这款车型实现超强性能的关键之一。

【/h/]论文地址:https://arxiv.org/abs/2212.08073

【/h/]根据Anthropic发表的论文，主要是通过constitution AI技术帮助大模型进行自我监控和优化改进，主要分为监督学习和强化学习。

【/h/]首先，让大模型生成对潜在有害提示的响应。这些最初的回应通常包含有害或不适当的内容，例如如何有效地偷窃。大模型需要根据宪法人工智能中的原则批评其响应。

【/h/]宪法人工智能制定了一套规则或原则，并定义了大规模模型行为的边界。也就是说，AI的输出行为不能越过这条红线。

【/h/]然后，通过Critique Request模块，要求大模型识别其先前响应中可能存在的问题，例如是否包含有害、不道德、种族歧视、性别歧视、有毒、危险或非法的内容。这个过程迫使大模型反思自己的行为，并确定需要改进的地方。

【/h/]识别问题后，如何改进大型模型响应的过程由修订请求模块指导。大模特被要求根据批评的内容重写其回应，以消除所有有害、不道德、种族歧视、性别歧视、有毒、危险或非法的内容。

【/h/]这个过程可以反复迭代，每次修订都可以引入新的原则，以增加应对措施的多样性和深度。

【/h/]需要注意的是，在批评和修改大型模型时，可能会遇到观点混乱的问题。例如，当应该生成修订时，可能会生成批评。为了解决这个问题，Anthropic将使用几个示例来指导大型模型的反射行为。

【/h/]在强化学习阶段，Anthropic从监督学习阶段的微调模型中采样，并生成对一系列提示的响应。然后，使用反馈模型来评估这些响应，并决定哪个响应更符合宪法人工智能原则中的无害标准。

【/h/]反馈模型将收到一个提示和一对由大模型生成的响应。根据体质人工智能中的一个原则，反馈模型需要在两个响应中选择一个更符合无害要求的响应。这个选择过程被构造为一个多项选择问题，反馈模型需要给出其选择的答案。

【/h/]例如，如果宪法人工智能的原则是“选择一个危害较小的答案”，则反馈模型需要从两个答案中选择一个包含危害较小、不道德、种族主义、性别歧视、有毒、危险或非法内容的答案。

【/h/]然后，Anthropic将使用生成的偏好标签来训练偏好模型。该模型可以为任何给定的样本分配一个分数，以评估其是否符合宪法AI原则。训练完成后，这种偏好模型被用作强化学习中的奖励信号，以指导AI助手通过强化学习进一步优化其行为。

【/h/]在强化学习过程中，大模型会根据偏好模型的反馈调整其内容输出策略，以生成更符合无害原则的响应。

【/h/]这个过程也是迭代的。大模型将不断地生成响应、接收反馈并根据反馈改进自身，直到其行为达到输出原则的稳定状态。

返回列表

爱军事